ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的に取り組むよう促しました。過去数ヶ月間の技術競争において、国産の大型モデルはテキスト理解と知識理解の課題で優れた成績を収めており、優秀な「文系学生」と言える。 しかし、複雑な数学的推論や計算、物理モデリング、科学的発見などの「科学」分野では、大規模モデルの研究はまだ満足できるレベルに達しておらず、アメリカのトップテクノロジー企業(OpenAI、Google、Anthropic)と比べると、依然として大きな差があります。例えば、数学的推論の権威ある評価セットであるGSM8KとMATHでは、アメリカのAI企業が常に上位を占めており、その主導的地位を誇示しています。 このような状況の中で、上海交通大学の生成人工知能研究グループ(GAIR)は積極的に困難を克服し、数学計算モデル「Abel」を開発してオープンソース化し、複数のリストでオープンソース部門の1位にランクされました。これは、国内外の大学チームによって立ち上げられた最初の SOTA 数学オープンソースモデルです。
「中国に戻る前に、私はMetaの非常に優れた科学者たちとLIMAという研究で協力しました。この研究では、わずか1,000のサンプルを使用して、モデルをGPT4に近いレベルまでトレーニングしました。しかし、この『少ないほど良い』という考え方は、数学的推論など、すべてのタスクシナリオで検証されていません。当時、これが後悔となり、大規模なモデルに数学をうまく学習させる方法に非常に興味を持つようになりました」と、上海交通大学生成人工知能研究グループの責任者であり、Abelプロジェクトの責任者でもある劉鵬飛氏は語った。 「アベルは、ノルウェーの偉大な数学者ニールス・ヘンリク・アベルの代数と解析における先駆的な業績を称えるために作られました。代数は現在のモデルで比較的うまく解ける分野ですが、まだ道のりは長いです。」 モデルのパフォーマンス表1: 🔒は独自のモデル、🌍はオープンソースのモデル、🎓は大学(企業ではなく)で開発されたモデルを表します。ここではツール(Pythonなど)を使用しないモデルのみを検討します。GAIRMath-Abelがこのチームにモデルを提案しました。 GAIRMath-Abelプロジェクトでは、著者らは、
Abel は、GSM8k (83.62) と MATH (28.26) の権威ある評価セットで、オープンソースの数学的モデル (外部ツールを使用せず) として最高の結果を達成しました。具体的には、次のとおりです。
優れたパフォーマンスに加えて、このプロジェクトでは次のことも明らかになりました。
トレーニング方法アベルを訓練するために、チームは、監督下で細かく調整されたベビーシッター戦略である「親による監督」を提案しました。 親の監督の核となる概念は、大きなモデルを微調整する際には敬意と注意を払うべきであるということです。これは、親が子供を無理やり成長させようとせず、最もわかりやすく慎重に子供に教えなければならないのと同じです。データとデータの表示方法が異なれば教育方法も異なるため、研究者は大きなモデルを教えるための最善の方法を慎重に選択する必要があります。 実際、GAI のコンテキストでは、データ構造エンジニアリングは新しいパラダイムになっています。データ処理の効果的な方向は、さまざまな下流タスクにおける大規模モデルの成功に重大な影響を及ぼします。保護者の監督の概念に基づくと、複雑な推論タスクで良好な結果を達成するための鍵は、教師あり学習にサンプルを無差別に使用するのではなく、トレーニング データを慎重に計画することです。 最も正確で注意深い監視を通じて、複雑な推論の下流タスクで大規模なモデルを成長させるのに役立ちます。教師あり微調整では、トレーニング サンプルには正解が含まれているだけでなく、事前トレーニング済みモデルの知識から正解を取得する方法もモデルに伝える必要があります。さらに、言語モデルの知識が真の答えを得るのに不十分な場合、教師あり学習によってモデルが知識のギャップを素早く埋められるようになります。 制限と計画Abel 数学モデルは、評価されたいくつかのデータ セットで良好なパフォーマンスを発揮しますが、開発者はその欠点もまとめています。
開発者は、問題のリストをリストアップし、これらの制限と潜在的な解決策を維持するために Github を使用していると述べています。皆様の建設的なコメントやご意見をお待ちしております。 次のステップ最後に、著者は簡単な図を使って、研究室の次の計画である「アーベル」から「ベルヌーイ」への計画も明らかにしました。 |
<<: OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい
新たな常態に対応するために自動化プロセスを拡大多くの企業は、ニューノーマルに対処するための重要な技術...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
画像背景除去プログラムは、画像内の被写体と背景を自動的に分割し、背景を除去することによって機能します...
産業用ロボットの年間成長率は44.9%でしたが、累積成長率は月ごとに低下しました。 Windのデータ...
[51CTO.com オリジナル記事]序文: ちょっとした歴史10年前、私が学校で上司と一緒に画像認...
中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...
Data & Society の新しいレポートでは、機械学習を使用して改変されるディープフェ...
1. DNNの一般化能力に関する問題この論文では主に、過剰パラメータ化されたニューラル ネットワー...
ストレージ技術の破壊的変化は進行中であり、ハイパーコンバージド インフラストラクチャ (HCI) 市...
ビッグデータ、クラウドコンピューティング、ディープラーニングと比較すると、インフラストラクチャはあま...