李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキストウィンドウのサイズが 200k を超え、一度に 400,000 の中国語文字を処理できます。

この大型模型は、イノベーションワークスの会長兼CEOである李開復氏が設立した大型模型会社「ゼロワンエブリシング」によって製作されたもので、Yi-6BとYi-34Bの2つのバージョンが含まれています。

英語版オープンソースコミュニティプラットフォーム「Hugging Face」と中国語版C-Eval評価リストによると、Yi-34Bは打ち上げ時に複数のSOTA国際最高性能指標認定を獲得し、LLaMA2やFalconなどのオープンソースの競合企業に勝ち、グローバルオープンソース大型モデルの「ダブルチャンピオン」となった。


Yi-34Bは、当時の国産モデルとしては唯一、Hugging Faceの世界オープンソースモデルランキングでトップに輝き、「世界最強のオープンソースモデル」と呼ばれた。

このモデルは発売後、国内外の多くの研究者や開発者の注目を集めました。

しかし最近、一部の研究者は、Yi-34B モデルは基本的に LLaMA アーキテクチャを採用しているが、2 つのテンソルの名前を変更していることを発見しました。

元の投稿リンク: https://news.ycombinator.com/item?id=38258015

この投稿には次のようにも書かれています。

Yi-34B コードは実際には LLaMA コードを再構築したものですが、大きな変更は加えられていないようです。このモデルは明らかにオリジナルの Apache 2.0 LLaMA ドキュメントに基づいた編集ですが、LLaMA については何も言及されていません。  

Yi と LLaMA のコード比較。コードリンク: https://www.diffchecker.com/bJTqkvmQ/

さらに、これらのコード変更はプルリクエストを通じてトランスフォーマー プロジェクトに送信されず、外部コードとして添付されるため、セキュリティ上のリスクが生じたり、フレームワークでサポートされなくなったりする可能性があります。 HuggingFace リーダーボードでは、カスタム コード戦略がないため、最大 200K のコンテキスト ウィンドウでこのモデルをベンチマークすることすらできません。

彼らはこれが 32K モデルであると主張していますが、4K モデルとして構成されており、RoPE スケーリング構成はなく、スケーリング方法の説明もありません (注: Zero One Thing は以前、モデル自体は 4K シーケンスでトレーニングされているが、推論フェーズ中に 32K にスケーリングできると述べています)。現時点では、その微調整データに関する情報はゼロです。また、疑わしいほど高い MMLU スコアを含むベンチマークを再現するための手順も提供されていません。

AI の分野で一定期間働いたことがある人なら、このことに気づかないはずがありません。これは虚偽広告ですか?ライセンス規制に違反していますか?実際のベンチマーク不正行為?誰が気にする?次の論文に切り替えるか、この場合はベンチャーキャピタルの資金をすべて受け取ります。 Yi はベースモデルなので、少なくとも標準以上であり、パフォーマンスも良好です。

数日前、Zero One Everything Huggingface コミュニティで、ある開発者が次のように指摘しました。

私たちの知る限り、Yi は 2 つのテンソルの名前が変更されたことを除いて、LLaMA アーキテクチャ全体を使用しました。 (入力レイヤーノルム、ポスト注意レイヤーノルム)

議論の中で、一部のネットユーザーは、Meta LLaMA アーキテクチャ、コード ベース、および関連するすべてのリソースを実際に使用する場合は、LLaMA が規定するライセンス契約に従う必要があると述べました。

LLaMA のオープンソース契約に従うために、開発者は名前を元に戻し、huggingface に戻しました。

01-ai/Yi-34B、テンソルの名前が標準の LLaMA モデル コードに合わせて変更されました。関連リンク: https://huggingface.co/chargoddard/Yi-34B-LLaMA

これを見ると、数日前にアリババを辞めて自分のビジネスを始めた賈陽青が友人の間でどの会社の名前を挙げていたかが分かる。

この件に関しては、マシンハートもゼロワンエブリシングに確認済み。 Zero One Everythingは次のように答えた。

GPT は業界で認められた成熟したアーキテクチャであり、LLaMA は GPT に関する概要を作成しました。 Zero One Everythingが開発した大型モデルの構造設計は、GPTの成熟した構造に基づいており、業界トップの公開成果を活用しています。同時に、Zero One Everythingチームは、モデルとトレーニングに関する理解に基づいて多くの作業を行ってきました。これは、最初のリリースで優れた結果を達成するための基礎の1つです。同時に、ゼロワンエブリシングは、モデル構造レベルでも本質的なブレークスルーの探求を続けています。

モデル構造はモデルトレーニングの一部にすぎません。 Yiオープンソースモデルは、データエンジニアリング、トレーニング方法、ベビーシッター(トレーニングプロセスの監視)技術、ハイパーパラメータ設定、評価方法、評価指標の本質に対する深い理解、モデル一般化機能の原理に関する徹底的な研究、業界をリードするAIインフラ機能など、他の側面にも多くのエネルギーを費やし、研究開発と基礎作業に多額の投資を行ってきました。これらの作業は、多くの場合、基本構造よりも大きな役割を果たし、より大きな価値を持っています。これらは、大規模モデルの事前トレーニング段階におけるZero One Everythingのコア技術的堀でもあります。

多数のトレーニング実験中に、実験実行の要件によりコードの名前が変更されました。オープンソース コミュニティからのフィードバックを尊重し、コードを更新して、Transformer エコシステムへの統合を強化します。

コミュニティからのフィードバックに大変感謝しています。私たちはオープンソースコミュニティを始めたばかりですが、皆さんと協力して豊かなコミュニティを作りたいと考えています。Yi Open-source は今後も進歩を続けられるよう最善を尽くします。

<<:  Googleに買収された後、大規模なモデル競争がOpenAIに遅れをとる理由がようやく分かった

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAI が ChatGPT にマルチモーダル入力機能を追加しました。ご存知ですか?

OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...

...

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高...

GC アルゴリズムをアニメーション グラフィックで説明 - ガベージ コレクションを動かしましょう。

[[425799]] Java のガベージ コレクションに関しては、私と同じように、多くの友人が、...

企業セキュリティのための AI 生体認証

生体認証技術は、市場に登場した最新の AI イノベーションのおかげで、特に 2021 年には長年にわ...

生成 AI とビッグモデルの違いと関連性は何ですか?

近年、ChatGPT、GPT-4、BARD、Claudeなどの大規模モデルが急速かつ大幅な進歩を遂げ...

...

...

人工知能とサイバーセキュリティは諸刃の剣

[[379153]] [51CTO.com クイック翻訳] 研究によると、人工知能技術はさまざまな業...

MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

[[391062]]海外メディアの報道によると、世界中の研究者がロボットが周囲の状況をよりよく認識...

百度のAIが海淀区の「スマートスクリーン」を実現、1秒で全状況を把握

今年初め、海淀シティブレインのインテリジェントオペレーションコマンドセンター(IOCC)が正式に公開...

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

この利便性は、近年旅行、観光、ホスピタリティ業界が積極的に導入している機械学習と人工知能の技術がなけ...

アルゴリズムだけでは不十分:AIの次のブレークスルーにはハードウェアの再検討が必要

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIコンピューティングパワーの封鎖が激化しています!米国、中国によるアマゾン、マイクロソフトのクラウドサービスの利用を制限する計画

ウォールストリート・ジャーナルは7月4日、米国政府が中国企業による米国メーカーのクラウドコンピューテ...

7つの便利なプロンプトパラメータ

ChatGPT と Midjournal により、生成 AI のアプリケーションが急増しました。生成...