李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキストウィンドウのサイズが 200k を超え、一度に 400,000 の中国語文字を処理できます。

この大型模型は、イノベーションワークスの会長兼CEOである李開復氏が設立した大型模型会社「ゼロワンエブリシング」によって製作されたもので、Yi-6BとYi-34Bの2つのバージョンが含まれています。

英語版オープンソースコミュニティプラットフォーム「Hugging Face」と中国語版C-Eval評価リストによると、Yi-34Bは打ち上げ時に複数のSOTA国際最高性能指標認定を獲得し、LLaMA2やFalconなどのオープンソースの競合企業に勝ち、グローバルオープンソース大型モデルの「ダブルチャンピオン」となった。


Yi-34Bは、当時の国産モデルとしては唯一、Hugging Faceの世界オープンソースモデルランキングでトップに輝き、「世界最強のオープンソースモデル」と呼ばれた。

このモデルは発売後、国内外の多くの研究者や開発者の注目を集めました。

しかし最近、一部の研究者は、Yi-34B モデルは基本的に LLaMA アーキテクチャを採用しているが、2 つのテンソルの名前を変更していることを発見しました。

元の投稿リンク: https://news.ycombinator.com/item?id=38258015

この投稿には次のようにも書かれています。

Yi-34B コードは実際には LLaMA コードを再構築したものですが、大きな変更は加えられていないようです。このモデルは明らかにオリジナルの Apache 2.0 LLaMA ドキュメントに基づいた編集ですが、LLaMA については何も言及されていません。  

Yi と LLaMA のコード比較。コードリンク: https://www.diffchecker.com/bJTqkvmQ/

さらに、これらのコード変更はプルリクエストを通じてトランスフォーマー プロジェクトに送信されず、外部コードとして添付されるため、セキュリティ上のリスクが生じたり、フレームワークでサポートされなくなったりする可能性があります。 HuggingFace リーダーボードでは、カスタム コード戦略がないため、最大 200K のコンテキスト ウィンドウでこのモデルをベンチマークすることすらできません。

彼らはこれが 32K モデルであると主張していますが、4K モデルとして構成されており、RoPE スケーリング構成はなく、スケーリング方法の説明もありません (注: Zero One Thing は以前、モデル自体は 4K シーケンスでトレーニングされているが、推論フェーズ中に 32K にスケーリングできると述べています)。現時点では、その微調整データに関する情報はゼロです。また、疑わしいほど高い MMLU スコアを含むベンチマークを再現するための手順も提供されていません。

AI の分野で一定期間働いたことがある人なら、このことに気づかないはずがありません。これは虚偽広告ですか?ライセンス規制に違反していますか?実際のベンチマーク不正行為?誰が気にする?次の論文に切り替えるか、この場合はベンチャーキャピタルの資金をすべて受け取ります。 Yi はベースモデルなので、少なくとも標準以上であり、パフォーマンスも良好です。

数日前、Zero One Everything Huggingface コミュニティで、ある開発者が次のように指摘しました。

私たちの知る限り、Yi は 2 つのテンソルの名前が変更されたことを除いて、LLaMA アーキテクチャ全体を使用しました。 (入力レイヤーノルム、ポスト注意レイヤーノルム)

議論の中で、一部のネットユーザーは、Meta LLaMA アーキテクチャ、コード ベース、および関連するすべてのリソースを実際に使用する場合は、LLaMA が規定するライセンス契約に従う必要があると述べました。

LLaMA のオープンソース契約に従うために、開発者は名前を元に戻し、huggingface に戻しました。

01-ai/Yi-34B、テンソルの名前が標準の LLaMA モデル コードに合わせて変更されました。関連リンク: https://huggingface.co/chargoddard/Yi-34B-LLaMA

これを見ると、数日前にアリババを辞めて自分のビジネスを始めた賈陽青が友人の間でどの会社の名前を挙げていたかが分かる。

この件に関しては、マシンハートもゼロワンエブリシングに確認済み。 Zero One Everythingは次のように答えた。

GPT は業界で認められた成熟したアーキテクチャであり、LLaMA は GPT に関する概要を作成しました。 Zero One Everythingが開発した大型モデルの構造設計は、GPTの成熟した構造に基づいており、業界トップの公開成果を活用しています。同時に、Zero One Everythingチームは、モデルとトレーニングに関する理解に基づいて多くの作業を行ってきました。これは、最初のリリースで優れた結果を達成するための基礎の1つです。同時に、ゼロワンエブリシングは、モデル構造レベルでも本質的なブレークスルーの探求を続けています。

モデル構造はモデルトレーニングの一部にすぎません。 Yiオープンソースモデルは、データエンジニアリング、トレーニング方法、ベビーシッター(トレーニングプロセスの監視)技術、ハイパーパラメータ設定、評価方法、評価指標の本質に対する深い理解、モデル一般化機能の原理に関する徹底的な研究、業界をリードするAIインフラ機能など、他の側面にも多くのエネルギーを費やし、研究開発と基礎作業に多額の投資を行ってきました。これらの作業は、多くの場合、基本構造よりも大きな役割を果たし、より大きな価値を持っています。これらは、大規模モデルの事前トレーニング段階におけるZero One Everythingのコア技術的堀でもあります。

多数のトレーニング実験中に、実験実行の要件によりコードの名前が変更されました。オープンソース コミュニティからのフィードバックを尊重し、コードを更新して、Transformer エコシステムへの統合を強化します。

コミュニティからのフィードバックに大変感謝しています。私たちはオープンソースコミュニティを始めたばかりですが、皆さんと協力して豊かなコミュニティを作りたいと考えています。Yi Open-source は今後も進歩を続けられるよう最善を尽くします。

<<:  Googleに買収された後、大規模なモデル競争がOpenAIに遅れをとる理由がようやく分かった

>>: 

ブログ    

推薦する

フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

コロナウイルスのパンデミックが業界に与える影響の程度は地域や業種によって異なると報告書は述べている合...

今後数年間の AI 求人市場はどのようになるでしょうか?

[[353999]] AI がもたらす自動化の脅威によって仕事が奪われる一方で、AI は新しい職種...

機械学習が製造業に革命を起こす10の方法

人工知能の導入は製造業に大きな経済的利益をもたらすでしょう。この点に関しては、さまざまな研究機関が関...

9つの一般的な畳み込みニューラルネットワークの紹介

畳み込みの目的は、入力から有用な特徴を抽出することです。画像処理では、さまざまなフィルターを選択でき...

...

AIは多くの仕事を「置き換える」のでしょうか?

コンピュータが人間の囲碁の名人と対戦していたとき、コンピュータは数年連続で世界チャンピオンに勝つこと...

作業の重複をなくしましょう! 30分で独自のディープラーニングマシンを作成する方法を教えます

[[327809]]画像ソース: unsplash繰り返し作業はいつも面倒です。新しいプロジェクトを...

...

時速55キロ!寧波杭州湾新区のスマート道路に無人車が走行

「無人運転車が次々とゆっくりと停止し、住民が乗車すると、自動的にショッピングモール、オフィス、学校な...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

1 つの記事でクラスタリング アルゴリズムを理解する

1. クラスタリングの基本概念1.1 定義クラスタリングはデータマイニングにおける概念であり、特定の...

私たちは人工知能の第4世代に突入しているのでしょうか?

人工知能はあらゆる社会的立場を変えるイノベーションです。これは、データを統合し、情報を分析し、その後...

OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

今年9月、OpenAIは初の開発者会議「OpenAI DevDay」を正式に発表した。その時、Ope...

2021 年に企業に影響を与える自然言語処理のトレンド

[[384737]] [51CTO.com クイック翻訳] 昨今、自然言語技術は企業でますます活用さ...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...