ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ノアとシャオウが編集

制作:51CTO テクノロジースタック(WeChat ID:blog)

昨日、テクノロジーコミュニティのHacker Newsに突然ニュースが登場し、少し前にリリースされた大型モデルYi-34Bを直接指摘し、2つのテンソルの名前が変更された以外は、完全にLlamaアーキテクチャを採用していると伝えました。

写真

公開情報によると、Yi シリーズのオープンソース モデルでは、オープンソース ライセンスに Llama について言及されていません。元の投稿にはほとんどコメントがなかったものの、それでも注目を集めました。結局のところ、「Yi」はつい最近リリースされ、非常に期待されています。

今年3月、李開復はWeChatモーメンツにメッセージを投稿し、Zero One Everythingチームの設立を正式に発表した。わずか7か月後、Zero One Everythingはオープンソースの中国語・英語バイリンガルモデル「Yi」をリリースしました。関連情報によると、イノベーションワークス、アリババクラウド、その他非公開の投資家から資金調達した後、ゼロワンワンウーの評価額は10億ドルを超えた。

さらに注目すべきは、ゼロワンエブリシングの公式発表によると、Yi-34Bはダークホースとして複数のSOTA国際最高性能指標認定を獲得しただけでなく、これまでにHugging Faceグローバルオープンソースモデルランキングでトップに立った唯一の国産モデルとなったことです。

そのため、サークル内外を問わず、誰もが「イー」がこの質問にどのように向き合い、その後どのような反応を示すのかに注目しています。

1. 投稿による疑惑:コミュニティの疑惑、賈陽青の皮肉疑惑

この事件は、Hugging Faceに掲載された投稿によって引き起こされた。

ehartford という名前の開発者が 9 日前にコミュニティにメッセージを残しました。彼はまず、自分の知る限り、Yi は 2 つのテンソル (input_layernorm、post_attention_layernorm) の名前を変更したことを除いて、Llama と同じアーキテクチャを使用していると指摘しました。

さらに重要なのは、Llama アーキテクチャには多くの投資とツールがあるため、テンソルに同じ名前を使用することに価値があるということです。そこで彼は、モデルが広く採用される前に、オープンソース コミュニティが Yi を再リリースし、「テンソルの名前を変更して、Llama アーキテクチャに適合するバージョンにする」ことを期待しています。

写真

下記の投稿をした開発者らは、Meta LlaMA 構造、そのコード ベース、および関連するすべてのリソースを採用する場合は、LLaMA が規定するライセンス契約に従う必要があることも指摘しました。 Yi モデルを LlaMA 形式で正式にリリースすることを義務付けると、Yi ライセンス条項の強制力が損なわれるため問題があります。

その後、一部の熱狂的なネットユーザーが、アリババの元副社長である賈陽清氏がWeC​​hatモーメンツに投稿した写真を発掘し、その中で彼は、ある国内の大型モデルが実はLlaMAの盗作であり、違いを示すためにいくつかの変数名が変更されていると率直に述べました。彼はさらに、次のように鋭い発言もしました。「オープンソースのモデル アーキテクチャの場合は、名前を変更しないでください。そうしないと、名前の変更に適応するためだけに多くの作業を行わなければなりません。」賈陽清は名前を挙げなかったが、この件に注目する人々は、その人物に自分を重ね合わせずにはいられなかった。

写真

2. 最初の標的型対応:命名問題はチームの過失だった

この論争に対して、ゼロワンエブリシングはその後独自の回答を出した。

ちょうど昨日、チームのオープンソースディレクターであるリチャード・リン氏は、Hugging Face コミュニティの元の投稿で、「命名の問題はチームの怠慢でした。多数のトレーニング実験で、実験の要件を満たすためにコードの名前を何度も変更しました。しかし、正式版をリリースする前に、元に戻すのを忘れました。このことについて深くお詫びするとともに、混乱を招いたことについてもお詫び申し上げます。」と指摘しました。

写真

リチャード・リン氏は、テンソル名の変更は不適切であったことを元の投稿者に対して認めた。「テンソル名についてはあなたのおっしゃる通りです。私たちはあなたの提案どおり、名前を Yi から Llama に変更します。私たちはまた、正確かつ透明性のある方法で作業を完了することを非常に重視しています。」

同時に、彼は解決策も示しました。問題を発見した開発者にこれらの変更を含むプル リクエストを送信するよう依頼するか、必要に応じてそのチームに更新を処理させて同じリポジトリで新しいバージョンをリリースし、Llama アーキテクチャに準拠するように Yi のテンソル名の変更を完了させるかのいずれかです。

最後に、リチャード・リン氏は、同様のミスが二度と起こらないようワークフローの改善に全力で取り組むと改めて述べ、「次はすべてのコードを再度チェックし、残りのコードが正確であることを確認します」と述べた。

3. 再び世論の反応: 大規模モデルの核心的なブレークスルーは、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにある。

LLaMa はオープンソース モデルであり、LLaMa のアーキテクチャを使用することは大規模なモデルをトレーニングする際の通常のステップであると言う人もいます。さらに、中国でリリースされているオープンソースモデルのほとんども、徐々に業界標準になりつつある GPT/LLaMA アーキテクチャを採用しています。優れたモデルをトレーニングするには、アーキテクチャに加えて、優れたトレーニング データと、トレーニング方法および特定のパラメーターの正確な制御も必要です。

Zero One Everythingが本日午後に発表した発表では、次のように述べられています。「大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。」

写真

この記事の核心は次のように要約できます。

  • 国内のオープンソースモデルのほとんどはGPT/LLaMAアーキテクチャを採用しています。大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。
  • Zero One Everything チームは、基本的なモデル構造と比較して大きな役割と価値を持つ科学的モデルトレーニングに関する体系的な作業を数多く完了しました。
  • Zero One Everything チームは、トレーニング方法、データ比率、データ エンジニアリング、詳細なパラメーター、ベビーシッター (トレーニング プロセスの監視) テクニックなどの調整にほとんどのエネルギーを費やしました。モデルアーキテクチャを超え、研究とエンジニアリングを進歩させ、最先端かつ画期的な一連の研究開発タスクは、まさにモデルトレーニングの核心にとって最も重要であり、大規模モデル技術の堀のノウハウ蓄積を形成できます。
  • 実験名が変更された後に一部の LLaMA 推論コードを使用する際の見落としについては、当初の出発点はモデルを十分にテストすることであり、ソースを故意に隠蔽することではなく、各種オープンソース コミュニティのバージョン更新ができるだけ早く完了することになっています。

4. ローカル大規模モデルの迷路をナビゲートすることの難しさ:シェルの定義方法

実際、地元の大型モデルが「砲撃」されたとして問題視されたのは今回が初めてではない。

つい最近、外の世界でも、Baichuan Intelligent のオープンソース モデル Baichuan-7B が LLaMa のシェルであるかどうかが疑問視されていました。当時、王小川氏は、検索会社で20年間勤務した経験から、チームは言語データに対する深い理解を持ち、高品質のコーパスを取得するチャネルを知っており、モデルの反復速度が非常に速いと述べ、「国内のオープンソースモデルの能力は、今やLLaMaに匹敵する」と語った。

では、シェリングとは一体何なのでしょうか。また、既存のオープンソースの結果の合理的な使用法とは何でしょうか。ご存知のとおり、同じアーキテクチャを選択した場合でも、異なるデータセットでトレーニングされたモデルは異なります。しかし、今回 Yi が引き起こした論争の焦点は、オープンソース モデル アーキテクチャの「魔法の変更」という命名にあります。それで、事件自体に戻ると、それは本質的には「結果を活用しながらブランドを変える」という話です。

Yi-34Bが初めてリリースされたとき、Kai-Fu Lee氏は海外メディアTechCrunchのインタビューで、オープンソースのLLMをZero One Everythingの最初の製品として導入するという決定は、社会に「恩返し」する方法であると語った。 LlaMA が自分にとって「天の恵み」だと感じる人々にとって、「私たちは魅力的な代替手段を提供します。」今のところ、それが人々を納得させることができるかどうかは、時間の経過とともに試される必要があるようです。

参考リンク:

https://news.ycombinator.com/item?id=38258015

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

https://techcrunch.com/2023/11/05/valued-at-1b-kai-fu-lees-llm-startup-unveils-open-source-model/

https://baijiahao.baidu.com/s?id=1782591118774975071

<<:  解説: ジェネレーティブ AI の仕組みとその違い

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

人工知能は、新たな科学技術革命と産業変革をリードする戦略的技術として、世界の主要国が科学技術の飛躍的...

...

150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

[[441513]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

クラゲのように見える7cmのガジェットは、実際にはチーターに似た最速のソフトロボットです

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

脳内の画像を高解像度で復元できるようになりました

近年、画像生成、特にテキストから画像への生成の分野で大きな進歩が遂げられており、アイデアをテキストで...

手書きを模倣するAIが独自のフォントを作成

手書き模倣AIの研究背景諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、...

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

バックトラッキングアルゴリズム - ロボットの動作範囲

[[415476]]この記事はWeChatの公開アカウント「Magic Programmer K」か...

ノーコード プラットフォーム トップ 8: 2020 年に見逃せない機械学習プラットフォーム

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

[[423154]]近年、正規化フローモデルは、画像超解像(画像SR)[SRFlow、ECCV20...

農業革命: 世界市場における作物収穫ロボットの台頭

農業の世界は、世界の市場に革命を起こすであろう驚異的な技術である作物収穫ロボットの登場により、パラダ...

...