博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした

博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした

最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題を暗記して「カンニング」しているのは誰ですか?

今年になって問題が発表されたばかりのハンガリーの全国数学期末試験について、誰かが総合的なテストを実施した。

一瞬にして多くのモデルが露出した

まず、緑色の部分を見てみましょう。これらの大規模モデルは、古典的な数学テストセット GSM8k と新しいテスト用紙で同様の結果を達成しており、これらを合わせて参照標準を形成しています

赤い部分を見ると、GSM8Kのスコアは同じパラメータスケールの大規模モデルよりも大幅に高くなっています。しかし、新しいテストペーパーのスコアは大幅に低下し、同じスケールの大規模モデルとほぼ同じです。

研究者らは、これらを「GSM8kで訓練されたと疑われる、または訓練されたことが分かっている」と分類した。

このテストを見たネットユーザーは、これまでに見たことのないトピックについて大規模なモデルの評価を開始する時期が来たと述べた。

このテストと、大規模モデルを使用した全員の実際の経験が、現時点では唯一の信頼できる評価手段であると考える人もいます。

マスク氏のGrokはGPT-4に次ぐもので、オープンソースのLlemmaは優れた結果を達成した。

テスターのKeiran Paster氏は、トロント大学の博士課程の学生であり、Google の学生研究者であり、テストで使用された大規模な Lemma モデルの著者の 1 人です。

巨大モデルにハンガリーの全国高校数学期末試験を受けさせよう。この技はマスク氏のxAIから生まれた。

xAI の Grok 大規模モデルがリリースされたとき、いくつかの共通テスト セットに加えて、モデルがオンライン データ内のテスト問題を誤って認識したという問題を排除するために、この追加テストが実行されました。

この試験は今年 5 月末に完了したばかりであり、現在の大規模モデルでは基本的にこのテスト問題セットを見る機会はありません。

xAIがリリースされた際には、比較のためにGPT-3.5、GPT-4、Claude 2の結果も発表されました。

このデータセットに基づいて、Paster は強力な生成数学機能を備えたいくつかのオープンソース モデルをさらにテストしました。

各モデルのテスト問題、テスト スクリプト、および回答結果はHuggingface 上でオープン ソースとして公開されており、誰でも他のモデルを検証してさらにテストすることができます。

結果から判断すると、GPT-4 と Claude-2 が第 1 階層を形成し、GSM8k と新しいテスト ペーパーの両方で高いスコアを獲得しました。

これは、GPT-4 と Claude 2 のトレーニング データに漏洩した GSM8k の質問がまったく含まれていないことを意味するわけではありませんが、少なくとも一般化能力は優れており、新しい質問を正しく解決できるため、気にする必要はありません。

次に、Musk xAIのGrok-0 (33B)とGrok-1 (非公開のパラメータスケール)が良好なパフォーマンスを示しました。

Grok-1 は「不正行為をしていないグループ」の中で最高得点を獲得しており、新しいテスト用紙での彼の得点は Claude 2 よりもさらに高くなっています。

GSM8k での Grok-0 のパフォーマンスは GPT3.5-Turbo のパフォーマンスに近いですが、新しいテスト ペーパーではわずかに劣ります。

上記のクローズドソース モデルを除き、テスト内の他のすべてのモデルはオープン ソース モデルです。

Code Llamaシリーズは、Llama 2をベースにMetaが独自に微調整したもので、自然言語に基づいたコード生成に重点を置いています。現在では、同規模のモデルに比べると数学的な能力が若干劣るようです

Code Llamaをベースに、いくつかの大学や研究機関が共同でLlemmaシリーズを立ち上げ、EleutherAIがオープンソース化しました。

チームは、科学論文、数学を含むウェブデータ、数学コードから Proof-Pile-2 データセットを収集しました。トレーニング後、Llemma はツールを使用して、それ以上の微調整なしで正式な定理証明を行うことができます。

新しいテスト用紙のLlemma 34Bは、GPT-3.5 Turboのレベルに近いです。

Mistral シリーズは、フランスの AI ユニコーン企業 Mistral AI によってトレーニングされました。Apache 2.0 オープンソース プロトコルは Llama よりも緩やかで、Alpaca ファミリーに次いでオープンソース コミュニティで最も人気のある基本モデルとなっています。

「オーバーフィッティング グループ」OpenChat 3.5MetaMath Mistral は、どちらも Mistral エコシステムに基づいて微調整されています。

MetaMathMAmmoTH Code は、Code Llama エコシステムに基づいています。

実際のビジネスでオープンソースの大規模モデルを選択する場合は、このグループを避けるように注意する必要があります。ランキング結果は良いかもしれませんが、実際の機能は同規模のモデルよりも弱い可能性があります。

多くのネットユーザーは、この実験こそがモデルの実際の状況を理解するために必要なことだと信じ、パスター氏に感謝の意を表した。

懸念を表明した人もいた。

この日から、大規模モデルをトレーニングするすべての人が、過去のハンガリーの数学の試験問題にアクセスできるようになります。

同時に、独自のテストを備えた専用の大規模モデル評価会社を設立することが解決策になるかもしれないと彼は考えています。

もう 1 つの提案は、過剰適合の問題を軽減するために毎年更新されるテスト ベンチマークを確立することです。

<<: 

>>:  Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ニューラルネットワークの発明者、福島邦彦氏が受賞、シュミットフーバー氏とフェイフェイ・リー氏が賛辞を送る

[[429116]]最近、福島邦彦氏が2021年度バウアー賞および科学業績賞を受賞したというニュース...

2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...

2021 年のイノベーションを形作る 5 つのテクノロジー トレンド

近い将来、世界はテクノロジーとイノベーションのブームを迎えるでしょう。私たちは世界中で大規模なデジタ...

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスク...

2023年の7つの主要なAI技術トレンド

人工知能は現在世界を席巻しており、サプライチェーンの完全な自動化、仮想アシスタンスの提供などにより、...

李開復氏独占インタビュー:10年後には人間の仕事の50%がAIに置き換えられる

「人工知能は急速に発展し、10年以内に人間の仕事の50%がAIに置き換えられるだろう」。シノベーショ...

AIの民主化:ローコードおよびノー​​コードソリューションの台頭

今年初め、イノベーション、リサーチ、インキュベーションのグローバルディレクターであるルネ・シュルテ氏...

このマウスはFPSゲームのプレイ方法を自ら学習し、トレーニングの精度はプロのプレイヤーと同等です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ファーウェイ、2025年のトップ10トレンドを発表:大企業の97%がAIを導入

世界の人口の58%が5Gネットワ​​ークにアクセスできるようになり、14%の家庭に「ロボット執事」が...

...

機械学習を実践するための10のヒント

開発者にとって、クラウドベースの機械学習ツールは、機械学習を使用して新しい機能を作成し、提供する可能...

なぜAlipayは携帯電話の闇市場に関与しないのでしょうか?公式回答: 犯罪者は顔認識を突破できない

「携帯電話1台で世界中を旅する」というのは、ほぼすべての人の現状です。アクセスカード、バスカード、鍵...

畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

志東西(公式アカウント:zhidxcom)起源ディープラーニング分野の大物として、ヤン・ルカン氏は近...

3.15を利用して、あなたの周りの偽の人工知能を数えましょう

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

...