AI科挙制度がイノベーションを阻害する!あなたの目に映る良いモデルは単なる「ランキングマシン」です

AI科挙制度がイノベーションを阻害する!あなたの目に映る良いモデルは単なる「ランキングマシン」です

2010 年に ImageNet ベースのコンピューター ビジョン コンペティションが開始され、ディープラーニングのアルゴリズムとデータに革命が起こりました。それ以来、ベンチマークは AI モデルのパフォーマンスを測定する重要な手段となっています。

NLP の分野には、GLUE (一般言語理解評価) ベンチマークもあります。このベンチマークでは、AI モデルを何千もの文章を含むデータセットでトレーニングし、文章が文法的であるかどうかの判断、感情の分析、2 つの文章の間に論理的含意があるかどうかなど、9 つのタスクでテストする必要があります。

GLUE が初めてリリースされたとき、最もパフォーマンスの良かったモデルのスコアは 70 点未満でした。ベンチマークの作成者であるニューヨーク大学のコンピューター科学者サム・ボーンマン氏は、少なくとも AI モデルを困惑させたという点では、このデータセットは成功だと考えていました。

わずか1年の開発期間を経て、AIモデルのパフォーマンスは90点に楽々と到達し、人間のスコア87.1点を上回りました。

2019年、研究者らはベンチマークの難易度を再び引き上げ、SuperGLUEをリリースした。一部のタスクでは、AIモデルが文章だけでなくWikipediaやニュースサイトの段落も処理し、読解力の質問に答えることが求められる。

このベンチマークが初めて発表されたときも、人間は20ポイントリードしていたが、2021年初頭にはコンピューターが89.8というスコアで再び人間を上回った。

AIモデルの知能レベルは人間のそれを上回ったのでしょうか?

「ランキング操作」では、膨大な書籍、ニュース記事、Wikipedia からの数十億語でトレーニングされた AI 言語モデルが、何度も専門家を興奮させてきました。これらのモデルは、驚くべき人間的なエッセイ、ツイート、要約メールを生成し、数十の言語間で翻訳することさえできます。

しかし、実際のアプリケーションへの導入や特定の例のテストとなると、少し混乱することがあります。AI はなぜこのような愚かな間違いを犯すのでしょうか? AI にそれを修正する方法を教えることができるのでしょうか?

2020年、マイクロソフトのコンピューター科学者マルコ・トゥリオ・リベイロ氏は、マイクロソフト、グーグル、アマゾンを含むさまざまなSOTAモデルに多くの隠れたエラーがあることを指摘するレポートを発表しました。たとえば、文中の「what's」を「what is」に変更すると、モデルの出力はまったく異なります。それまでは、これらのビジネスモデルがこれほどひどいとは誰も気づいていませんでした。

このように訓練されたAIモデルは、試験の受け方だけを知っていて成績優秀な学生のようなものです。科学者が設定したさまざまなベンチマークテストに無事合格できますが、科学者にはその理由がわかりません。これは一般に「高得点だが能力が低い」と言われています。

しかし、ほとんどの研究者は、解決策はベンチマークを放棄することではなく、それを改善することであることに同意しています。しかし、それをどのように改善するかについては意見の相違があります。

ベンチマークはより厳密であるべきだと考える人もいれば、ベンチマークはモデルの偏りを明らかにするべきだと考える人もいます。また、単一の標準的な答えがない問題 (テキスト要約など) に対処するため、または複数の評価指標を使用してモデルのパフォーマンスを測定するために、ベンチマーク データセットをより大きくしたいと考える人もいます。

ベンチマークを難しくする

ベンチマークを向上させる最も明白な方法の 1 つは、ベンチマークを難しくすることです。

AIスタートアップ企業Hugging Faceの研究リーダーであるDouwe Kiela氏は、既存のベンチマークの最もとんでもない点は、AIモデルが人間を上回ったように見えることだと考えているが、NLP実践者なら誰でも、人間レベルの言語知能に到達するにはまだ長い道のりがあることを知っている。

そこで Kiela は、GLUE などの静的ベンチマークの問題 (パフォーマンスが人間をすぐに上回ってしまう、過剰適合しやすい、評価指標が不確実または不完全であるなど) に焦点を当てた動的データ収集およびベンチマーク プラットフォーム Dynabench の作成に着手しました。

Dynabench はクラウドソーシング プラットフォームに依存しています。感情分類などのタスクごとに、クラウドソーシング ワーカーは人工知能モデルが誤分類すると思われるフレーズや文を提出する必要があります。モデルをうまく欺く例はベンチマーク テストに追加されます。モデルはこのデータに基づいてトレーニングされ、プロセスが繰り返され、リーダーボードが古くなることなくベンチマークが継続的に進化します。

Dynabench プラットフォームは本質的には科学的な実験です。従来の静的な方法ではなく、データを動的に収集し、人々とモデルを常に最新の状態に保つことができれば、AI モデルの研究をより速く進めることができるでしょうか?

ベンチマークを改善するもう 1 つの方法は、ラボ データと実際のシナリオ間のギャップを埋めることです。既存の機械学習モデルは通常、同じデータセットからランダムに選択された例でトレーニングおよびテストされますが、実際にはデータの分布がシフトしている可能性があります。

WILDS は、スタンフォード大学のコンピューター科学者 Percy Liang 氏が開発したベンチマークです。腫瘍の特定、動物種の分類、コンピューター コードの完成などのタスクのモデルをテストするために使用できる、厳選された 10 個のデータ セットで構成されています。

WILDS の最も重要なステップは、各データセットが複数のソースから取得されることです。たとえば、腫瘍画像は 5 つの異なる病院から取得されます。目的は、異なるデータセット間でのモデルの一般化能力を調べることです。

WILDS は、社会的な偏見のモデルをテストすることもできます。1 つのデータセットは、ニュース サイトのコメント プラットフォームから収集された数十万件の有害なコメントのコレクションであり、悪用される人口統計 (黒人、白人、キリスト教徒、イスラム教徒、LGBTQ など) に基づいて 8 つのドメインに分割されています。研究者は、データセット全体に対してモデルをトレーニングし、その後、データのサブセットに対してモデルをテストすることで、盲点を探すことができます。たとえば、イスラム教徒に向けられた有害なコメントを識別できるかどうかをテストします。

「スコアのみの理論」を打ち破る

より優れたベンチマークはより優れたモデルを開発するための 1 つの方法に過ぎず、開発者はリーダーボードのランキングやスコアに執着しないようにする必要があります。

アイントホーフェン工科大学のコンピューター科学者、ジョアキン・ヴァンショーレン氏は、論文におけるいわゆるSOTA(最先端技術)はイノベーションを阻害するものだと非難し、AIカンファレンスの査読者に対し、リーダーボードのスコアを重視するのをやめてイノベーションに主眼を置くよう求めた。

ほとんどのベンチマーク テストには 1 つのスコアしかないため、モデルの長所と短所を完全に反映することはできません。

Dynabench では、Dynascore を使用して、精度、速度、メモリ使用量、公平性、入力変更に対する堅牢性など、さまざまな要素を網羅したベンチマークでモデルのパフォーマンスを評価します。ユーザーは、自分にとって最も重要なことに基づいてモデルをランク付けできます。たとえば、Facebook のエンジニアは、エネルギー効率を重視するスマートウォッチの設計者よりも精度を重視するかもしれません。

一方、ベンチマーク データセット内の質問には通常、絶対的な「真実」が存在しないため、スコアの精度は信頼できない可能性があります。ベンチマーク設計者の中には、データセット内のノイズとも呼ばれる、テスト データから曖昧な例や議論の余地のある例を単純に削除する人もいます。

昨年、ロンドン大学クイーン・メアリー校の計算言語学者マッシモ・ポエジオ氏とその同僚は、人間のデータ注釈者間の意見の相違から学習するモデルの能力を評価するためのベンチマークを作成した。

彼らは、人間が「面白い」と感じる程度に応じて複数のテキスト スニペットをランク付けし、これを使用してモデルをトレーニングし、単に「はい」または「いいえ」の回答を提供するのではなく、2 つのテキストのうちどちらがより面白いかの確率を判断するように求めました。各モデルは、その推定が人間が注釈を付けた分布とどの程度一致するかに基づいて採点されます。

ベンチマーク調査はまだニッチな分野

現在のベンチマーク関連の研究が直面している主な問題は、インセンティブの欠如です。

昨年発表された論文の中で、Google の研究者は産業界と学界の AI 実践者 53 人にインタビューを行った。データセットを改善することはモデルを設計することほどやりがいがないと指摘する人は多くいます。論文の著者の一人であるローラ・アロヨ氏は、機械学習コミュニティはベンチマークに対する姿勢を変えつつあるが、まだニッチな研究であると考えている。

昨年の NeurIPS カンファレンスでは、データセットとベンチマークに関する論文のレビューと公開のための新しいトラックが立ち上げられ、これらのトピックの研究に新たな刺激がすぐに生まれました。何と言っても、これはトップ カンファレンスです。

共同議長のヴァンショーレン氏は、主催者は数十件の応募を予想していたが、500件を超える論文が寄せられ、これが人気のある選択であることを示していると述べた。

いくつかの論文では新しいデータセットやベンチマークが提供されていますが、他の論文では既存のデータセットやベンチマークの問題が明らかにされています。研究者らは、10 の一般的な視覚、言語、音声のベンチマークで、テスト データ内のラベルの少なくとも 3% が誤っており、これらのエラーがモデルのランキングに影響することを発見しました。

多くの研究者は、より良いベンチマークを作成するためのインセンティブを望んでいますが、その一方で、その分野が自分たちにあまり焦点を当てられることを望まない研究者もいます。

グッドハートの法則は、指標が一度目標になると、もはや良い指標ではなくなるというものです。

つまり、さまざまな方法でモデルに試験の受け方を教えようとすると、試験自体の意味が失われてしまいます。

最後に、リベイロ氏は、ベンチマークは実践者のツールボックス内のツールであるべきであり、人々はベンチマークを使用してモデルの理解に代わるものとし、ベンチマーク データセットを通じて「モデルの動作」をテストすると述べました。

参考文献:

https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

<<:  今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された

>>:  市場情報調査 | モノのインターネット市場における人工知能

ブログ    
ブログ    

推薦する

MITは液体のような動的変化に適応できるLiquid機械学習システムを提案

自動運転などの多くの重要なアプリケーションでは、データはリアルタイムかつ動的であり、予期しない状況が...

...

携帯電話で AI を使用するにはどうすればいいですか?写真を撮るのは本当にハイテクです

AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...

人工知能が従業員の定着率向上の秘訣を明らかにする

従業員の定着は、長年にわたり企業経営者にとって深刻な問題となってきました。雇用の安定と従業員の忠誠心...

1 つの GPU + 数行のコードで、大規模モデルのトレーニング速度が 40% 向上します。 HuggingFaceのシームレスなサポート

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

HarmonyOS メタサービス開発実践: デスクトップカード辞書

1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...

...

...

...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

劉強東氏は「10年で8万人を解雇する」という噂を否定するが、人工知能は無人企業を実現できると語る

最近、「JD.comが今後10年間で8万人の従業員を解雇する」というニュースがネット上で広まった。こ...

ひと口引くとバラが生き返ります! Googleは画像ダイナミクスを生成することを提案しており、すべてのものに魂が宿ることになる

ほら、軽く引っ張るとバラが動きますよ。葉を左にドラッグすると、松の木も同じ方向に移動します。引っ張る...