アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的に取り組むよう促しました。過去数ヶ月間の技術競争において、国産の大型モデルはテキスト理解と知識理解の課題で優れた成績を収めており、優秀な「文系学生」と言える。

しかし、複雑な数学的推論や計算、物理モデリング、科学的発見などの「科学」分野では、大規模モデルの研究はまだ満足できるレベルに達しておらず、アメリカのトップテクノロジー企業(OpenAI、Google、Anthropic)と比べると、依然として大きな差があります。例えば、数学的推論の権威ある評価セットであるGSM8KとMATHでは、アメリカのAI企業が常に上位を占めており、その主導的地位を誇示しています。

このような状況の中で、上海交通大学の生成人工知能研究グループ(GAIR)は積極的に困難を克服し、数学計算モデル「Abel」を開発してオープンソース化し、複数のリストでオープンソース部門の1位にランクされました。これは、国内外の大学チームによって立ち上げられた最初の SOTA 数学オープンソースモデルです。


  • プロジェクトホームページ: https://GAIR-NLP.github.io/abel
  • オープンソースモデル: https://github.com/GAIR-NLP/abel

「中国に戻る前に、私はMetaの非常に優れた科学者たちとLIMAという研究で協力しました。この研究では、わずか1,000のサンプルを使用して、モデルをGPT4に近いレベルまでトレーニングしました。しかし、この『少ないほど良い』という考え方は、数学的推論など、すべてのタスクシナリオで検証されていません。当時、これが後悔となり、大規模なモデルに数学をうまく学習させる方法に非常に興味を持つようになりました」と、上海交通大学生成人工知能研究グループの責任者であり、Abelプロジェクトの責任者でもある劉鵬飛氏は語った。 「アベルは、ノルウェーの偉大な数学者ニールス・ヘンリク・アベルの代数と解析における先駆的な業績を称えるために作られました。代数は現在のモデルで比較的うまく解ける分野ですが、まだ道のりは長いです。」

モデルのパフォーマンス

表1: 🔒は独自のモデル、🌍はオープンソースのモデル、🎓は大学(企業ではなく)で開発されたモデルを表します。ここではツール(Pythonなど)を使用しないモデルのみを検討します。GAIRMath-Abelがこのチームにモデルを提案しました。

GAIRMath-Abelプロジェクトでは、著者らは、

  • ツールは使用しない
  • 数学の大規模な事前学習データは使用されていない
  • 報酬モデルは使用されていない
  • 人間のフィードバックによる強化学習(RLHF)は使用されていない
  • 教師あり微調整(SFT)のみを使用する

Abel は、GSM8k (83.62) と MATH (28.26) の権威ある評価セットで、オープンソースの数学的モデル (外部ツールを使用せず) として最高の結果を達成しました。具体的には、次のとおりです。

  • GSM8Kのパフォーマンスは83.62に達し、PaLM-1、Minerva(Google)、Claude-instant(Anthropic)、ChatGPT(OpenAI)など、多くの海外メーカーの優れたモデルを上回り、Googleの最新モデルPaLM-2-Flanにわずか1パーセントポイント遅れをとっています。また、すべてのオープンソースの国内モデルよりも大幅に高いです。
  • 難しい数学競技問題では、Abel は 28.26% の正解率 (GPT4 は 42.5%) を達成し、他のオープンソース モデルを大きくリードし、これまでの最高のオープンソース モデルを 5 パーセント ポイント以上上回りました。
  • 7B モデルと 13B モデルは、GSM8K と MATH のオープン ソース モデルの中で、大きな利点を備え、最高のパフォーマンスを達成しました。
  • Abel はリストのトップ 10 のうち 3 つの位置を占めており、大学が主導する唯一のプロジェクトです (他のプロジェクトはすべてスター スタートアップまたは大手テクノロジー企業です)。
  • 私たちのアプローチを使用すると、GSM8K と MATH で優れた結果を達成できるだけでなく、新しいデータセット (TALSCQ-EN) が提供されたときに最先端のパフォーマンス (SOTA) にすぐに到達し、商用モデルの MathGPT と GPT4 を簡単に上回ります。

優れたパフォーマンスに加えて、このプロジェクトでは次のことも明らかになりました。

  • 監督下での微調整の威力は著しく過小評価されており、研究者は当然の畏敬の念と注意をもってこのプロセスに取り組むべきである。
  • 優れた数学的問題解決能力は、教師ありの微調整を通じて十分に達成することができ、この方向での将来の探求においてより想像力豊かな可能性につながるでしょう。

トレーニング方法

アベルを訓練するために、チームは、監督下で細かく調整されたベビーシッター戦略​​である「親による監督」を提案しました。

親の監督の核となる概念は、大きなモデルを微調整する際には敬意と注意を払うべきであるということです。これは、親が子供を無理やり成長させようとせず、最もわかりやすく慎重に子供に教えなければならないのと同じです。データとデータの表示方法が異なれば教育方法も異なるため、研究者は大きなモデルを教えるための最善の方法を慎重に選択する必要があります。

実際、GAI のコンテキストでは、データ構造エンジニアリングは新しいパラダイムになっています。データ処理の効果的な方向は、さまざまな下流タスクにおける大規模モデルの成功に重大な影響を及ぼします。保護者の監督の概念に基づくと、複雑な推論タスクで良好な結果を達成するための鍵は、教師あり学習にサンプルを無差別に使用するのではなく、トレーニング データを慎重に計画することです。

最も正確で注意深い監視を通じて、複雑な推論の下流タスクで大規模なモデルを成長させるのに役立ちます。教師あり微調整では、トレーニング サンプルには正解が含まれているだけでなく、事前トレーニング済みモデルの知識から正解を取得する方法もモデルに伝える必要があります。さらに、言語モデルの知識が真の答えを得るのに不十分な場合、教師あり学習によってモデルが知識のギャップを素早く埋められるようになります。

制限と計画

Abel 数学モデルは、評価されたいくつかのデータ セットで良好なパフォーマンスを発揮しますが、開発者はその欠点もまとめています。

  • 過剰適合: 堅牢性分析と数学的に生成する AI の固有の脆弱性 (多数決などの高度なデコード戦略が必要になることが多い) を考慮しても、パフォーマンスを向上させるために SFT サンプルの構築に過度に依存すると、必然的にモデルの過剰適合につながる可能性があります。 (ただし、オーバーフィッティングは現在のプロジェクトの主要な焦点ではありません。さまざまな拡張トレーニング データにオーバーフィッティングしても、MATH データセットなどの複雑な数学的推論タスクで好ましいテスト結果を達成することは依然として困難であるためです。) それでも、チームはさらに広範な堅牢性分析を実施し、モデルを数学的ジェネラリストに変換し、より包括的なクロスドメイン一般化分析を実施できるトレーニング方法を積極的に模索する必要があります。
  • 一般化可能性: 優れた数学モデルは、GSM8K および MATH データセットの問題の解決に限定されるべきではありません。さまざまな知識領域を評価し、さまざまな種類の応答 (複数の選択、真偽、証明、算術など) を必要とする問題を含む、さまざまな種類の問題を処理できる必要があります。現在のモデルは、これらの多様なシナリオに一般化できるほど強力ではありません。
  • 一般化可能性: 最終的には、大規模モデルによって可能になる数学的推論機能が、医学、法律、物理学、化学など、さまざまな分野のチャットボットに統合される可能性があると著者らは予想しています。 AGI を実現するための鍵は、強力な数学モデルの力を他のモデルに組み込むことにあります。これは、現在のプロジェクトではまだ検討されていないことです。
  • 多言語対応: 現在のモデルのトレーニング データとベース モデルでは、英語以外の言語で応答を提供する能力が制限されています。
  • 高度な技術: 現在のモデルは教師あり微調整 (SFT) に重点を置いており、報酬モデル、RLHF (人間からのフィードバックからの強化学習)、ツール呼び出しなどの高度な技術は検討されていません。

開発者は、問題のリストをリストアップし、これらの制限と潜在的な解決策を維持するために Github を使用していると述べています。皆様の建設的なコメントやご意見をお待ちしております。

次のステップ

最後に、著者は簡単な図を使って、研究室の次の計画である「アーベル」から「ベルヌーイ」への計画も明らかにしました。

<<:  OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

位相データ解析を使用して畳み込みニューラルネットワークモデルの動作プロセスを理解する

1. はじめにニューラル ネットワークは、画像、テキスト、時系列などのさまざまなデータの処理において...

開発者が武器をアップグレードするために推奨される 5 つの機械学習フレームワーク

業界ではよく知られているデータサイエンスのウェブサイトである KDnuggests は昨日、4 月の...

新たな AI の冬を回避するにはどうすればよいでしょうか?

人工知能はここ数年で大きな進歩を遂げてきましたが、開発者の過剰な約束とエンドユーザーの非現実的な期待...

顔認識のために服を着る必要があるかどうかは激しい議論を巻き起こしたが、専門家は心配しすぎる必要はないと述べている。

[[410356]] 7月9日のニュース:最近、デジタルブロガーの@长安数码君はソーシャルプラット...

AIとIoTが持続可能で人間中心の建物をどのようにサポートするか

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止

数日前、テンセントの製品に違反があり、合計4回に分けて報告されました。工業情報化部はテンセントに対し...

数学が苦手でも機械学習を学ぶことはできますか?

[[381131]] 01 「機械学習は簡単に習得できますか?」これは私が最も頻繁に聞かれる質問で...

AIのヒット曲:主人公はプログラマー、作曲家は気を散らされている

米国の著作権法では「人間」という言葉はほとんど使われておらず、この問題を扱った訴訟は歴史上ほとんど起...

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

ディープな旅行がますます高品質の観光オプションに浸透するにつれて、観光型の観光はもはや現代人の旅行ニ...

...

...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

「参入から放棄まで」、アップルの自動運転車プロジェクトがさらに190人を解雇

Appleはまたしても悪いニュースを伝えた。 2か月前、悪い収益予測によりAppleの株価は一夜にし...

生成AI人材の獲得競争が始まった。求人数は4倍に増え、最高年収は90万ドル

ウォール・ストリート・ジャーナルによると、求人ウェブサイトIndeedの統計によると、生成AI関連の...

米メディア:人工知能の発展には5つの大きなトレンドが予想される

3月15日、アメリカの隔週刊ウェブサイト「フォーブス」は「2021年の人工知能:期待できる(または期...