AI科挙制度がイノベーションを阻害する!あなたの目に映る良いモデルは単なる「ランキングマシン」です

AI科挙制度がイノベーションを阻害する!あなたの目に映る良いモデルは単なる「ランキングマシン」です

2010 年に ImageNet ベースのコンピューター ビジョン コンペティションが開始され、ディープラーニングのアルゴリズムとデータに革命が起こりました。それ以来、ベンチマークは AI モデルのパフォーマンスを測定する重要な手段となっています。

NLP の分野には、GLUE (一般言語理解評価) ベンチマークもあります。このベンチマークでは、AI モデルを何千もの文章を含むデータセットでトレーニングし、文章が文法的であるかどうかの判断、感情の分析、2 つの文章の間に論理的含意があるかどうかなど、9 つのタスクでテストする必要があります。

GLUE が初めてリリースされたとき、最もパフォーマンスの良かったモデルのスコアは 70 点未満でした。ベンチマークの作成者であるニューヨーク大学のコンピューター科学者サム・ボーンマン氏は、少なくとも AI モデルを困惑させたという点では、このデータセットは成功だと考えていました。

わずか1年の開発期間を経て、AIモデルのパフォーマンスは90点に楽々と到達し、人間のスコア87.1点を上回りました。

2019年、研究者らはベンチマークの難易度を再び引き上げ、SuperGLUEをリリースした。一部のタスクでは、AIモデルが文章だけでなくWikipediaやニュースサイトの段落も処理し、読解力の質問に答えることが求められる。

このベンチマークが初めて発表されたときも、人間は20ポイントリードしていたが、2021年初頭にはコンピューターが89.8というスコアで再び人間を上回った。

AIモデルの知能レベルは人間のそれを上回ったのでしょうか?

「ランキング操作」では、膨大な書籍、ニュース記事、Wikipedia からの数十億語でトレーニングされた AI 言語モデルが、何度も専門家を興奮させてきました。これらのモデルは、驚くべき人間的なエッセイ、ツイート、要約メールを生成し、数十の言語間で翻訳することさえできます。

しかし、実際のアプリケーションへの導入や特定の例のテストとなると、少し混乱することがあります。AI はなぜこのような愚かな間違いを犯すのでしょうか? AI にそれを修正する方法を教えることができるのでしょうか?

2020年、マイクロソフトのコンピューター科学者マルコ・トゥリオ・リベイロ氏は、マイクロソフト、グーグル、アマゾンを含むさまざまなSOTAモデルに多くの隠れたエラーがあることを指摘するレポートを発表しました。たとえば、文中の「what's」を「what is」に変更すると、モデルの出力はまったく異なります。それまでは、これらのビジネスモデルがこれほどひどいとは誰も気づいていませんでした。

このように訓練されたAIモデルは、試験の受け方だけを知っていて成績優秀な学生のようなものです。科学者が設定したさまざまなベンチマークテストに無事合格できますが、科学者にはその理由がわかりません。これは一般に「高得点だが能力が低い」と言われています。

しかし、ほとんどの研究者は、解決策はベンチマークを放棄することではなく、それを改善することであることに同意しています。しかし、それをどのように改善するかについては意見の相違があります。

ベンチマークはより厳密であるべきだと考える人もいれば、ベンチマークはモデルの偏りを明らかにするべきだと考える人もいます。また、単一の標準的な答えがない問題 (テキスト要約など) に対処するため、または複数の評価指標を使用してモデルのパフォーマンスを測定するために、ベンチマーク データセットをより大きくしたいと考える人もいます。

ベンチマークを難しくする

ベンチマークを向上させる最も明白な方法の 1 つは、ベンチマークを難しくすることです。

AIスタートアップ企業Hugging Faceの研究リーダーであるDouwe Kiela氏は、既存のベンチマークの最もとんでもない点は、AIモデルが人間を上回ったように見えることだと考えているが、NLP実践者なら誰でも、人間レベルの言語知能に到達するにはまだ長い道のりがあることを知っている。

そこで Kiela は、GLUE などの静的ベンチマークの問題 (パフォーマンスが人間をすぐに上回ってしまう、過剰適合しやすい、評価指標が不確実または不完全であるなど) に焦点を当てた動的データ収集およびベンチマーク プラットフォーム Dynabench の作成に着手しました。

Dynabench はクラウドソーシング プラットフォームに依存しています。感情分類などのタスクごとに、クラウドソーシング ワーカーは人工知能モデルが誤分類すると思われるフレーズや文を提出する必要があります。モデルをうまく欺く例はベンチマーク テストに追加されます。モデルはこのデータに基づいてトレーニングされ、プロセスが繰り返され、リーダーボードが古くなることなくベンチマークが継続的に進化します。

Dynabench プラットフォームは本質的には科学的な実験です。従来の静的な方法ではなく、データを動的に収集し、人々とモデルを常に最新の状態に保つことができれば、AI モデルの研究をより速く進めることができるでしょうか?

ベンチマークを改善するもう 1 つの方法は、ラボ データと実際のシナリオ間のギャップを埋めることです。既存の機械学習モデルは通常、同じデータセットからランダムに選択された例でトレーニングおよびテストされますが、実際にはデータの分布がシフトしている可能性があります。

WILDS は、スタンフォード大学のコンピューター科学者 Percy Liang 氏が開発したベンチマークです。腫瘍の特定、動物種の分類、コンピューター コードの完成などのタスクのモデルをテストするために使用できる、厳選された 10 個のデータ セットで構成されています。

WILDS の最も重要なステップは、各データセットが複数のソースから取得されることです。たとえば、腫瘍画像は 5 つの異なる病院から取得されます。目的は、異なるデータセット間でのモデルの一般化能力を調べることです。

WILDS は、社会的な偏見のモデルをテストすることもできます。1 つのデータセットは、ニュース サイトのコメント プラットフォームから収集された数十万件の有害なコメントのコレクションであり、悪用される人口統計 (黒人、白人、キリスト教徒、イスラム教徒、LGBTQ など) に基づいて 8 つのドメインに分割されています。研究者は、データセット全体に対してモデルをトレーニングし、その後、データのサブセットに対してモデルをテストすることで、盲点を探すことができます。たとえば、イスラム教徒に向けられた有害なコメントを識別できるかどうかをテストします。

「スコアのみの理論」を打ち破る

より優れたベンチマークはより優れたモデルを開発するための 1 つの方法に過ぎず、開発者はリーダーボードのランキングやスコアに執着しないようにする必要があります。

アイントホーフェン工科大学のコンピューター科学者、ジョアキン・ヴァンショーレン氏は、論文におけるいわゆるSOTA(最先端技術)はイノベーションを阻害するものだと非難し、AIカンファレンスの査読者に対し、リーダーボードのスコアを重視するのをやめてイノベーションに主眼を置くよう求めた。

ほとんどのベンチマーク テストには 1 つのスコアしかないため、モデルの長所と短所を完全に反映することはできません。

Dynabench では、Dynascore を使用して、精度、速度、メモリ使用量、公平性、入力変更に対する堅牢性など、さまざまな要素を網羅したベンチマークでモデルのパフォーマンスを評価します。ユーザーは、自分にとって最も重要なことに基づいてモデルをランク付けできます。たとえば、Facebook のエンジニアは、エネルギー効率を重視するスマートウォッチの設計者よりも精度を重視するかもしれません。

一方、ベンチマーク データセット内の質問には通常、絶対的な「真実」が存在しないため、スコアの精度は信頼できない可能性があります。ベンチマーク設計者の中には、データセット内のノイズとも呼ばれる、テスト データから曖昧な例や議論の余地のある例を単純に削除する人もいます。

昨年、ロンドン大学クイーン・メアリー校の計算言語学者マッシモ・ポエジオ氏とその同僚は、人間のデータ注釈者間の意見の相違から学習するモデルの能力を評価するためのベンチマークを作成した。

彼らは、人間が「面白い」と感じる程度に応じて複数のテキスト スニペットをランク付けし、これを使用してモデルをトレーニングし、単に「はい」または「いいえ」の回答を提供するのではなく、2 つのテキストのうちどちらがより面白いかの確率を判断するように求めました。各モデルは、その推定が人間が注釈を付けた分布とどの程度一致するかに基づいて採点されます。

ベンチマーク調査はまだニッチな分野

現在のベンチマーク関連の研究が直面している主な問題は、インセンティブの欠如です。

昨年発表された論文の中で、Google の研究者は産業界と学界の AI 実践者 53 人にインタビューを行った。データセットを改善することはモデルを設計することほどやりがいがないと指摘する人は多くいます。論文の著者の一人であるローラ・アロヨ氏は、機械学習コミュニティはベンチマークに対する姿勢を変えつつあるが、まだニッチな研究であると考えている。

昨年の NeurIPS カンファレンスでは、データセットとベンチマークに関する論文のレビューと公開のための新しいトラックが立ち上げられ、これらのトピックの研究に新たな刺激がすぐに生まれました。何と言っても、これはトップ カンファレンスです。

共同議長のヴァンショーレン氏は、主催者は数十件の応募を予想していたが、500件を超える論文が寄せられ、これが人気のある選択であることを示していると述べた。

いくつかの論文では新しいデータセットやベンチマークが提供されていますが、他の論文では既存のデータセットやベンチマークの問題が明らかにされています。研究者らは、10 の一般的な視覚、言語、音声のベンチマークで、テスト データ内のラベルの少なくとも 3% が誤っており、これらのエラーがモデルのランキングに影響することを発見しました。

多くの研究者は、より良いベンチマークを作成するためのインセンティブを望んでいますが、その一方で、その分野が自分たちにあまり焦点を当てられることを望まない研究者もいます。

グッドハートの法則は、指標が一度目標になると、もはや良い指標ではなくなるというものです。

つまり、さまざまな方法でモデルに試験の受け方を教えようとすると、試験自体の意味が失われてしまいます。

最後に、リベイロ氏は、ベンチマークは実践者のツールボックス内のツールであるべきであり、人々はベンチマークを使用してモデルの理解に代わるものとし、ベンチマーク データセットを通じて「モデルの動作」をテストすると述べました。

参考文献:

https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

<<:  今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された

>>:  市場情報調査 | モノのインターネット市場における人工知能

ブログ    
ブログ    
ブログ    

推薦する

年収100万のAI関連職種4つ

ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...

運試しに自撮りしてみませんか?これはすべて顔認識技術のおかげです

新年の初めに、酉年の運勢を計算することは、多くの若者が夕食後に好んで行うことです。 「占い」はどちら...

ハンズフリーロボットがゴミ分別の問題解決に役立つ

地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

IoTと機械学習がビジネスを加速させる5つの方法

モノのインターネットと機械学習は、今日のビジネスにおいて最も破壊的なテクノロジーの 2 つです。さら...

...

...

自分のIQに挑戦してみませんか? 10 種類の機械学習アルゴリズムを理解してデータ サイエンティストになろう

データ サイエンティストになりたいですか? 十分な知識と新しいことに対する好奇心が必要です。このため...

...

人間の知能と人工知能:どちらが優れているのでしょうか?

人工知能は近い将来、人間の知能を超える可能性を秘めている。テクノロジーは飛躍的に進歩しましたが、AI...

各自動車会社の「地図なし」インテリジェント運転ソリューションについてお話ししましょう

01 起源産業発展のニーズ2022年下半期には、高速道路や都市高速道路でのインテリジェント運転の問題...

...

GPT-4.5 と同等のコードインタープリター! GPT-5をトレーニングせずに、OpenAIは依然としてAGIに向けて競争している

先週、シリコンバレーのスタートアップオタクや研究者が更新するポッドキャスト「Latent Space...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...