国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

1月17日、新世代の大規模言語モデルShusheng Puyu 2.0(InternLM2)が正式にリリースされ、オープンソース化されました。

2 つのパラメータ仕様、3 つのモデルバージョン、合計 6 つのモデルがあり、すべて商用利用は無料です。

200K の超長いコンテキストをサポートし、200 ページの財務レポートを簡単に読み取ることができます。 20万件のテキスト全体の重要情報の想起精度は95.62%に達しました。

外部ツールの助けを借りなくても、本質的な数学的能力は ChatGPT を上回ります。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。

また、複数回のツール呼び出しやより高い共感などの機能ももたらされます。

これらすべては、Shusheng Pu Yu 2.0 の基本的なモデリング機能が大幅にアップグレードされ、コーパスの品質が向上し、情報密度が高まったことによるものだと理解されています。

それで、Shusheng Pu Yu 2.0 はどのようなアップグレードをもたらすのでしょうか?これはどうやって行うのですか?

上海AI研究所の第一人者である林大華教授が、その秘密を私たちに明かしてくれました。

ChatGPTに匹敵する主な機能

Shusheng Puyu 2.0 には、7B と 20B の 2 つのパラメータ仕様が含まれています。

7B は軽量の研究とアプリケーションを対象としており、20B は総合的なパフォーマンスがより強力で、より複雑な使用シナリオをサポートできます。

各仕様には 3 つのモデル バージョンが含まれます。

  • インターンLM2ベース
  • インターンLM2
  • インターンLM2チャット

ベースバージョンは、2.0 で追加された新しいバージョンです。機能が強化される前の InternLM2 の標準バージョンです。より基本的で柔軟性が高いため、探索的な研究に適しています。

InternLM2 の標準バージョンは Base をベースにしており、複数の機能が強化されています。優れた一般的な言語機能を維持しながら、テストスコアも向上しており、ほとんどのアプリケーションに適しています。

Chat バージョンは、Base をベースに SFT および RLHF の後に会話機能が強化されており、指示に従う機能、共感、呼び出しツールなどの機能が優れています。

具体的な機能面では、前世代と比較して、InterLM2 コアは基本的な言語モデリング機能が強化されています。

大規模で高品質な検証コーパス上での2世代モデルの損失分布を見ることができます。第2世代の分布は全体的に左にシフトしており、言語モデリング能力が大幅に強化されたことがわかります。

これにより、次のような下流タスクが全面的に改善されます。

  • 実質的に20万トークンの長いコンテキストをサポート
  • 複雑なインテリジェントエージェントの構築と複数回のツール呼び出しをサポート
  • 内在する数学的能力がChatGPTを上回る
  • 全体的なパフォーマンスは、同規模のオープンソースモデルの中でトップレベルです。

InternLM2 は、高い情報想起成功率を維持しながら、200,000 語の超長いコンテキストを効果的にサポートするようになりました。これは、前世代に比べて大幅に改善されています。

InternLM2 では、「干し草の山の中の針」のような実験が行われました。長いテキストのさまざまな位置に重要な情報をランダムに挿入して質問を作成し、モデルが長いテキストから重要な情報を抽出できるかどうかをテストしました。

結果は、InternLM2-Chat の再現精度が依然として高く、16K 以内での平均精度は 95.65% であることを示しています。

実際のシナリオでは、InternLM2 は最大 3 時間の会議議事録と最大 212 ページの財務レポートを処理できます。

内部コンピューティング能力も大幅に向上しました。

InternLM2 は、計算機などの外部ツールに頼ることなく計算を実行し、いくつかの複雑な数学の問題を解決することができます。

100 以内の数学演算ではほぼ 100% の精度を達成でき、1000 以内では精度は 80% に達します。

コードインタープリターと併用すると、20B モデルは積分などの大学レベルの数学の問題を解くことができます。

ツール呼び出しに関しては、コマンド理解、ツールスクリーニング、結果反映などのより強力で一般化された機能に基づいて、InternLM2 は複雑なインテリジェントエージェントの構築をより確実にサポートし、ツールが効果的なマルチラウンド呼び出しを実行し、複雑なタスクを完了できるようにします。

総合的なパフォーマンスの点では、InternLM2 は推論、数学、コードにおいて優れたパフォーマンスを発揮します。

前世代と比べて大幅に改善されただけでなく、標準評価セットではいくつかの指標が ChatGPT を上回りました

たとえば、InternLM2-Chat-20B は、MATH および GSM8K で ChatGPT よりも優れたパフォーマンスを発揮します。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。

推論能力に対する要件が高い AGIEval や BigBench-Hard (BBH) などの評価では、新世代の 20B モデルは ChatGPT よりも優れたパフォーマンスを発揮します。

同時に、InternLM2 は他のオープンソース モデルとの包括的なパフォーマンス比較も行います。

同様の仕様を持つベースモデルと対話モデルを比較すると、結果は次のようになります。

6B-7Bベースモデルの比較

13B-20Bベースモデルの比較

注: Mixtral-8x7B は推論ごとに約 13B のパラメータをアクティブにします。このモデルは最近注目を集めているため、参考としてそのパフォーマンスもここに記載します。

6B-7B対話モデルの比較

13B-20B対話モデルの比較

データから判断すると、InternLM2 は全面的なアップグレードを完了し、オープンソース コミュニティに「ChatGPT レベル」の大規模モデル オプションをもたらしました。

それで、これはどうやって実現されるのでしょうか?どのような技術革新がありましたか?

鍵はデータ品質の向上にある

多くの大規模モデルの反復アップグレード ルートとは異なり、InternLM2 はパラメータ スケールを拡張せず、代わりにデータに重点​​を置いています。

上海AI研究所の主任科学者である林大華教授は、これは全体的な戦略的考慮に基づいたものだと述べた。

非常に優れたバージョンのデータが抽出されると、さまざまな仕様のモデルのトレーニングをサポートできます。したがって、まず第一に、データを最先端レベルに保つために、データの反復に多大な労力を費やす必要があります。中重量モデルと軽量モデルのデータを反復処理することで、より迅速に作業を進めることができます。

この目的のために、上海 AI 研究所は、主に次の 3 つの側面に重点を置いた新世代のデータクリーニングおよびフィルタリング システムを開発しました。

  • 多次元データ価値評価
  • 高品質なコーパス駆動型データエンリッチメント
  • ターゲットデータの補完

まず、データ価値評価では、言語品質や情報密度などの側面からデータ価値を総合的に評価し、向上させます。たとえば、研究チームは、フォーラム ページへのコメントによってモデル機能が大幅に改善されるだけであることを発見しました。

そこで、研究チームは、高品質なコーパスの特性を活用して、現実世界、インターネット、コーパスからさらに類似したコーパスを充実させました。

これにより、シード データをガイドして、真に知識のあるデータを収集し、その割合を増やすことができます。

最後に、世界知識、数学、コーディングなどのコア能力の強化に重点を置いて、コーパスを重点的に補完します。

新世代のデータクリーニングシステムを構築するために、研究チームは3桁の数のモデルをトレーニングしました。システムの各反復では、検証のために少なくとも 70 億規模の大規模モデルをトレーニングする必要があるためです。

新世代のデータクリーニング技術のサポートにより、トレーニングデータの約60%のみを使用して、以前のバージョンのデータでトレーニングされた1Tトークンのパフォーマンスを達成できます

さらに、データ汚染による評価結果の歪みを回避するために、InternLM2 は、より厳密なトレーニング セット構築プロセスを通じて各テスト セットを除外し、最小ハッシュ重複排除を通じてテスト セットに近いトレーニング コーパスの部分を削除します。

もちろん、InternLM2 はモデルベースの機能に重点を置くだけでなく、現在のアプリケーション トレンドの要件に基づいて、いくつかの下流タスク機能も改善します。

たとえば、最近の超長いコンテキストの傾向。Lin Dahua 教授は、ツール呼び出しや数学的推論などのシナリオでは、より長いコンテキスト ウィンドウが必要であることを紹介しました。

そのため、InternLM2 はトレーニング ウィンドウのサイズと位置エンコーディングの改善を拡大し、トレーニングに十分な長さ、高品質、構造化されたデータを見つけ、トレーニング システムを最適化してコンテキスト ウィンドウのサポートを 200,000 トークンまで拡張します。

大規模モデルの対話エクスペリエンスに関しては、InternLM2 は Online RLHF を使用して、報酬モデルと対話モデルに対して 3 ラウンドの反復更新を実行します。各ラウンドの更新では、前のラウンドのモデルの好みデータとトレーニング プロンプトが更新されます。

報酬モデルのトレーニングと PPO ステージの両方でさまざまなプロンプトがバランスよく使用されるため、モデルのセキュリティがさらに向上し、会話の主観的なエクスペリエンスが大幅に向上します。

研究チームが、コミュニティが RLHF 前後のモデルの変化を分析および比較できるように、InternLM2-Chat SFT のみと SFT + RLHF の重みを同時にオープンソース化したことは注目に値します。

要約すると、上海AI実験室は、InterLM2のアップグレードと反復において、モデルベースの機能に重点を置いています。同時に、大規模なモデルアプリケーショントレンドのニーズに合わせて、いくつかの下流タスクの改善にも重点を置いています。

急速に進化するトレンドの中で、このような明確な思考は稀です。

チームはテクノロジーに対する深い理解とトレンドの正確な判断力を持つ必要があり、これにより大規模モデル開発の効率が大幅に向上し、モデルの反復とアップグレードが加速されます。

上海AI研究所がこのようなアイデアを思いついたのは、大きなモデルを開発するという当初の意図と関係がある。

本当に高品質なオープンソースを実現する

2023年の世界人工知能会議で、Shusheng Pu Yuモデルが正式にオープンソース化されました。

Shusheng Puyu の高品質でオールラウンドなオープンソースを通じて、ビッグモデルの革新と応用を促進し、より多くの分野と業界がビッグモデルの変化の波から恩恵を受けられるようにしたいと考えています。

要約すると、Shusheng Pu Yu の過去 7 か月間の一連のオープンソース作業は徹底的かつ包括的なものでした。

対象範囲は、一般的な大規模モデル、特殊タスクの大規模モデル(Shusheng·Pu Yulingbi)、フルチェーンツールシステム(データ、事前トレーニング、微調整、展開、評価、アプリケーションを通じて)、マルチモーダル事前トレーニングコーパス(Shusheng·Wanjuan)などです。

なぜこれをするのですか?

上海AI研究所の第一人者である林大華教授は、2つの理由を挙げた。

直接的な理由は、大規模モデルの応用のトレンドがすぐに到来し、オープンソースの高品質なベースの大規模モデルによって実装プロセスの中間チェーンを短縮できるためです。

林大華教授は、公共部門であれビジネス部門であれ、大規模モデルに対する忍耐力には限界があると分析した。 2024年には、このビッグモデルを実際の応用に向けて推進するために全力を尽くします。

高品質の基本大型モデルを作成することで、基本大型モデルが特定のシーンで期待されるレベルに到達できるようになり、より便利で高速になります。

より根本的な理由は、中国が独自の高品質なオープンソースのビッグモデルを必要としていることです。

大規模モデルのトレンドは ChatGPT によって始まりましたが、第 2 のクライマックスは Meta オープンソース LLaMA によってもたらされました。これにより、より多くの個人、機関、企業がビッグモデルの分野に参入し、豊富なアプリケーションを開発し、テクノロジー エコシステム全体に大きな影響を与えることができるようになります。

しかし、LLaMA の中国語の理解やその他のコンプライアンス上の考慮事項の限界により、中国には中国語ネイティブの高品質なオープンソース ベースが必要です。

すべての要素を考慮すると、学術コミュニティはこのタスクをよりうまく達成できるようになります。

オープンソース ベース モデルは、高品質を保証するだけでなく、さらに重要なことに、長期的に持続可能でなければなりません。企業もオープンソースに取り組むことができますが、企業には本質的に商業的な要求があり、焦点は基盤技術から商業アプリケーションへと徐々に移っていきます。これはそれ自体理解できることなので、上海人工知能研究所はここでその価値を発揮できる必要があります。

さらに、学術界は商業的な障壁の構築を考慮する必要がないため、オープンソースはより徹底したものになります。

林大華教授は、上海AI研究所は、大規模なモデルを作成する際に、アプリケーションに必要な機能を考慮し、ToC商用アプリケーションを作成するのではなく、パートナーと協力して、本質的に先駆的で模範的な革新的なアプリケーションを作成すると紹介しました。 。

例えば、最近アップグレードされリリースされた医療マルチモーダル基本モデル群「Puyi 2.0」。これは、上海AI実験室と上海交通大学医学部付属瑞金病院などのパートナーが共同でリリースしたもので、「クロスドメイン、クロス疾患、クロスモダリティ」のAI医療アプリケーションの機能サポートを提供することを目指しています。現在、インテリジェント画像診断、デジタル病理部門の構築、デジタルヒューマン仮想手術、スマート臨床意思決定、革新的な医療研究を含む 5 つの主要な応用シナリオが構築されています。

この作品もオープンソースです。最新のアップグレードでは、いくつかの主要な医療ビッグモデルが追加されただけでなく、5つの新しいオープンソースデータセットと新しい評価モジュールも追加され、医療ビッグモデルグループの「制作、学習、研究、使用、評価」のワンストップオープンソースが実現されました。

△Puyi 2.0の基本医療モデルは、病理学、超音波、CT、MR、心電図など複数の医療分野をカバーしています。

これらの実際のオープンソースのステップを通じて、現在のトレンドの変化と、上海 AI ラボがそのトレンドをどのように理解しているかについての洞察を得ることができます。

業界では2024年が大型モデルの適用初年とみなされています。今年の初め、上海AI実験室の活動は、よりアプリケーションレベルに重点を置いていました。

林大華教授は、2024年のビッグモデル分野の鍵は、ビッグモデルが最も持続可能な応用価値を持つシナリオを誰が見つけられるかだと考えています。

このアプリケーションの価値は、チャット アプリなど、私たちがよく目にする対話型の形式ではないかもしれません。

私の携帯電話には、10 個以上の大型会話アプリがインストールされていますが、特に必要なアプリではないため、平均 2 時間しか使用していません。

そのため、業界全体にとって、誰もが認める、本当に役立つシナリオをいかに見つけるかが大きな課題です。

発見されれば、大型模型技術革命はまさに歴史に残るものとなるでしょう。 ”

このステップに到達するためには、基礎となる基本モデルが最も基本的かつ重要な影響要因となります。

テクノロジーの発展に戻ると、林大華教授は2024年についてもいくつかの予測と判断を下しました。

  1. 大規模モデルの基本的な機能は徐々に収束し、モデル間の主な違いは、どちらのモデルの方が品質が高いかということになるでしょう。
  2. 現在、ビッグモデル分野のトレンドはどれも 3 か月以上は続きません。たとえば、超ロングコンテキスト機能は、まもなくすべてのビッグモデルの標準になるでしょう。
  3. 24 年前半には、オープンソースのマルチモーダル大規模モデルが多数登場するでしょう。
  4. 現在、MoE はまだ初期段階の設計であり、最も効率的な設計に開発されるまでにはしばらく時間がかかります。
  5. 24年後には、GPT-4に匹敵する大規模なオープンソースモデルが中国で登場するだろうという大きな期待が寄せられています。

つまり、2024 年はオープンソースのビッグ モデルの最高潮を迎える可能性が高いということです。

さて、新年最初の一発は上海AI研究所から発射されました。

Shusheng Puyu 2.0 のオープンソース リンクは https://github.com/InternLM/InternLM です。

無料の商用ライセンス申請: https://wj.qq.com/s2/12725412/f7c1。

<<:  Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

>>:  Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

推薦する

一流の科学者はどうやって AI を習得するのでしょうか? DeepSpeed4Science: 高度な AI システム最適化技術を使用して科学的発見を可能にする

今後 10 年間で、ディープラーニングは自然科学に革命をもたらし、自然現象をモデル化して予測する能力...

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

「敵対的事例」は古くからある問題です。画像内の数ピクセルを変更するなど、通常のデータにわずかな外乱...

すごい...正義のために親族を殺す? Google AI、米国の月面着陸写真は偽物だと判定

1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...

Nacos ランダムウェイト負荷分散アルゴリズム

導入Nacos は、クライアントがノードを選択するときに重みベースのランダム アルゴリズムを提供しま...

...

グーグルが倫理学者を解雇してから3か月後、AI倫理研究会議はグーグルのスポンサーシップを停止した。

[[386762]]ビッグデータダイジェスト制作出典: ベンチャービート編集:赤道のパンダACM ...

研究:AIが生成した顔は本物の顔よりも信頼性が高い

今週、米国科学アカデミー紀要に発表された新たな研究は、ディープフェイク技術がどれだけ進歩したかを示す...

ディープラーニングにおける次の大きな進歩は機械読み取りでしょうか?

機械読み取りはディープラーニングの次の大きな進歩となるだろう[[184205]] 2016 年を振り...

AIが品質保証を向上させる6つのヒント

品質保証(QA)は多くの企業にとって重要な関心分野です。企業やサービスプロバイダーが高い品質を維持す...

EasyDL モデルのトレーニングから EdgeBoard 推論までのステップバイステップ ガイド

まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...

機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか?

[[183536]]聖書の旧約聖書創世記には、人類が団結して天国に通じるバベルの塔を建てたという話...

...

人工知能関連のキャリアと給与に関する 7 つの統計

現在、人手不足で高収入の AI 職種は何でしょうか? 需要が高い職種はどれでしょうか? AI はどれ...

ビッグニュース! Googleが突然発表!百度と滴滴出行は混同されている

21 金融ニュースは、日刊金融ニュース (ncjs111)、網易科技、創業報 (ichuangye...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...