Google は、AI 言語モデルの自己修正機能の向上を支援する BIG-Bench Mistake データセットをリリースしました。

Google は、AI 言語モデルの自己修正機能の向上を支援する BIG-Bench Mistake データセットをリリースしました。

IT Homeは1月15日、Google Researchが最近、独自のBIG-Benchベンチマークテストを使用して「BIG-Bench Mistake」データセットを確立し、関連データセットを使用して市場で人気のある言語モデルの「エラー確率」と「エラー修正能力」に関する一連の評価研究を実施したと報じた。

Googleの研究者らは、これまで大規模言語モデルの「エラー確率」や「自己修正能力」を評価できるデータセットがなかったため、評価テスト用に「BIG-Bench Mistake」という専用のベンチマークデータセットを作成したという。

研究者らはまず、PaLM言語モデルを使用して独自のBIG-Benchベンチマークタスクで5つのタスクを実行し、次に生成された「思考の連鎖」の軌跡を修正して「論理エラー」部分を追加し、それをモデルに戻して思考の連鎖の軌跡のどこにエラーがあったかを判断したと報告されています。

データセットの精度を向上させるために、Google の研究者は上記のプロセスを繰り返し実行し、最終的に「255 個の論理エラー」を含む「BIG-Bench Mistake」と呼ばれる専用のベンチマーク データセットを作成しました。

研究者らは、「BIG-Bench Mistake」データセットの論理エラーは比較的「単純かつ明確」であるため、言語モデルが単純な論理エラーから練習を開始し、エラーを識別する能力を徐々に向上させるのに役立つ優れたテスト標準として使用できると述べています。

研究者らはデータセットを使用して市場のモデルをテストし、言語モデルの大部分は推論中に発生する論理エラーを識別して自己修正できるものの、このプロセスは「理想的ではない」ため、モデル出力のコンテンツを修正するには通常、人間の介入が必要であることを発見しました。

▲ 画像出典: Google Research プレスリリース

IT Homeはレポートから、Googleが「現時点で最も先進的な大規模言語モデル」と主張するものの自己修正能力も比較的限られていることを発見した。関連するテスト結果で最も優れたパフォーマンスを示したモデルは、論理エラーの52.9%しか見つけられなかった

Google の研究者らは、この BIG-Bench Mistake データセットはモデルの自己修正能力の向上にも役立つと主張している。関連するテスト タスクでモデルを微調整した後、「通常、小さなモデルでも、サンプル プロンプトがゼロの大きなモデルよりもパフォーマンスが向上します。」

これを踏まえて、Googleは、モデルのエラー修正という点では、独自の小さなモデルを使って大きなモデルを「監督」できると考えています。大きな言語モデルに「自身のエラーを修正」することを学習させるのに比べて、大きなモデルの監督専用の小さな専用モデルを展開することは、効率の向上、関連するAI展開コストの削減、微調整の容易化につながります

<<:  ソフトウェア開発者ガイド: 独自のデータで ChatGPT をトレーニングする

>>:  インテリジェントな変革の時代を迎える: AIでビジネスの未来をリードする

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

...

今日のデータとAI市場における不確実性にどう対処するか

データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...

韓国チームはサンプルの引き渡しを拒否し、2本目のLK-99サスペンションビデオを公開しました! HUSTの新論文が初めて反磁性を証明

昨夜、「LK-99は韓国当局により偽物と摘発され、常温超伝導体ではない」というニュースがインターネッ...

...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

...

...

検出器がミスを犯し、英語を母国語としない人が書いた英語の記事の半分以上がAIによって書かれたと判定された。

7月13日、スタンフォード大学の研究者らは、英語を母国語としない人が英語の語彙力を十分持っていない...

GPT-4.5 が密かにブロック解除?グレースケールテストはネットユーザーの間で熱く議論され、OpenAIの研究者はそれはすべて幻覚であると反論

GPT-4.5 は、私たちの知らないうちに密かにリリースされたのでしょうか?最近、多くのネットユーザ...

機械学習が難しいのはなぜでしょうか?

[[187791]]機械学習は広く使用されており、チュートリアル、記事、オープンソース コードが至...

ゲイツは間違っていた!これはロボットが仕事を奪うことに対処するための最善の解決策です

落ち着いてください。ロボットや人工知能 (AI) システムが人間の労働力を置き換えるにはまだ程遠いの...

...

...