動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dynabench を構築し、共有しています。人間によるテストとモデルの反復を組み合わせて、難しい新しいデータとより最適化された AI モデルを作成します。

[[345339]]

過去 10 年ほどにわたる人工知能の大きな成功は、大量のデータと計算能力によるものとされることが多いですが、「ベンチマーク」も進歩を推進する上で重要な役割を果たしています。

SOTA の結果を改善するには、研究者は自分のモデルのパフォーマンスを同僚が開発したモデルと比較する方法が必要です。正確な比較は、新しいモデルが実際にその分野の既存のモデルよりも優れていることを確認するための前提条件です。このプロセスは「ベンチマーキング」と呼ばれます。

研究者は AI を使った比較テストを実行し、AI が実際にどれほど進んでいるかを確認できます。たとえば、1,400 万枚の画像が公開されているデータセットである ImageNet は、画像認識の目標を設定します。 MNIST は手書き数字認識で同じことを行い、GLUE (General Language Understanding Evaluation) は自然言語処理で同じことを行い、GPT-3 のような画期的な言語モデルにつながりました。

ベンチマークは、特に自然言語処理 (NLP) の分野では、ますます急速に飽和状態に達しています。研究チームがMNISTで人間レベルのパフォーマンスを達成するのに約18年、ImageNetで人間を上回るのに約6年かかりましたが、GLUE言語理解ベンチマークで人間を上回るのには約1年しかかかりませんでした。

設定された目標はすぐに超えられてしまいます。 ImageNet もアップデートで GLUE に置き換えられましたが、これはより難しい言語タスクのセットです。

それでも、AI が超人的なレベルに達し、何らかの課題で人間を上回ったと研究者が報告するのは時間の問題です。 「ベンチマーク」がアルゴリズムとモデルの進歩を継続的に推進することを望むなら、これは解決すべき緊急の問題です。

Dynabench: 新しい動的敵対的ベンチマーク

Facebook は、研究者がより強力な自然言語処理 (NLP) モデルを開発するのに役立つことを期待して、人工知能と、それを妨害しようと全力を尽くす人間を対決させる新しいテスト方法を発表した。 「Dynabench」と呼ばれるこのベンチマークは、人々の選択に基づいて変化し、現在のベンチマーク方法の欠点を解決し、より堅牢な人工知能ソフトウェアの開発を促進します。

[[345340]]

Dynabench のソリューションは、プロセスに人間のテスターを参加させることで、ベンチマーク プロセスを部分的に有効にすることです。その考え方は、人間は、あらかじめパッケージ化された一連のテスト問題よりもモデルの精度をより正確に評価でき、ニューラル ネットワークに対してより困難で創造的な課題を提示できるというものです。

これは、現在の静的なベンチマークよりも優れたモデル測定メトリックであり、最も重要な状況、つまり、固定されたデータ ポイントのセットでは捉えられない複雑で絶えず変化する方法で行動し反応する人々と対話する場合に AI モデルがどのように機能するかをより適切に反映します。

「既存のベンチマークは非常に誤解を招く可能性がある」と、このツールの開発チームを率いたフェイスブックAIリサーチのダウ・キエラ氏は述べた。「ベンチマークに重点を置きすぎると、より広範な目標を無視することになり、テストがタスクになってしまう可能性がある」

静的ベンチマーク - 人との交流の経験を無視する

静的なベンチマークでは、モデルが特定の 1 つのことに過度に集中することになりますが、最終的に私たちが重視するのは特定のメトリックやタスクではなく、AI システムが人々と対話する際にどれだけうまく機能するかです。

人工知能の真の評価基準は、正確さや混乱ではなく、直接的または間接的に人々とコミュニケーションをとる際のモデルのエラー率であるべきです。

Kiela 氏は、これが現在 NLP が直面している特定の問題であると考えています。 GPT-3 のような言語モデルは言語を模倣するのが非常に得意なのでインテリジェントですが、これらのシステムが実際にどの程度理解しているかを言うのは困難です。

知能テストを受けるのと同じように、IQ テストを受けることはできますが、その人が実際にある科目を習得したかどうかはわかりません。そのためには、彼らと話し、質問する必要があります。

大量の事実をただ暗記する学生と同じように、この戦略は筆記試験では優れた成績を収めるかもしれませんが、面接で創造的で予想外の質問をされた場合にはそれほど効果的ではありません。

Dynabench も同様のことを行っており、「人間を使って人工知能に質問する」というものです。

Facebook 社もウェブページを立ち上げ、関心のある人たちにサイトにアクセスしてそのモデルをテストするよう呼びかけている。たとえば、言語モデルに Wikipedia ページを与え、質問をしてその回答を評価することができます。

ある意味、この考え方は、人々がすでに GPT-3 を使用してその限界をテストしている方法に似ています。あるいは、チャットボットがローブナー賞を評価する方法や、チューリングテストのようなもの。

AI がテスト ラウンドを完了すると、Dynabench はモデルを騙した質問を識別し、新しいテスト セットにコンパイルします。

研究者はこのテスト セットを使用して、より新しく複雑なモデルを構築できます。その後、最初の AI が答えられなかった質問に答えられるモデルが開発されると、Dynabench はプロセスを繰り返し、より難しい質問を含む別のテスト データセットをコンパイルします。

今のところ、Dynabench は言語モデルに焦点を当てます。これは、人間にとって最も理解しやすい AI モデルの 1 つだからです。 「誰もが言語を話します」とキエラは言う。「これらのモデルを妨害する方法について、実際の知識は必要ありません。」

この方法は、音声認識システムや画像認識システムなど、他のタイプのニューラル ネットワークにも適用できます。 「人々に自分の画像をアップロードしてもらうか、テストのために何かを描いてもらう方法を見つければいいだけです」とキエラ氏は言う。 Facebook の長期的なビジョンは、Dynabench をオープンにして、誰もが独自のモデルを開発し、独自のデータを収集できるようにすることです。

Facebook は、NLP モデルをテストするより良い方法があることを AI コミュニティに納得させたいと考えています。これにより、モデルとアルゴリズムの進歩が加速し、人間とのやり取りの体験が真に向上し、やり取りの内容を真に理解できるようになります。

<<:  IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

>>:  人工知能を活用してビジネスを成長させ、企業価値を創造する方法

ブログ    
ブログ    
ブログ    

推薦する

データ構造と区間マージアルゴリズム、貪欲

[[439314]]マージ間隔LeetCode の問題へのリンク: https://leetcode...

2020年までに、iPhoneでは画面指紋認証と顔認証が共存するようになるかもしれない

数日後には、2019 年の新しい iPhone シリーズが登場します。iPhone が Face I...

...

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

健康コードがないと旅行するのは難しいですか?顔認識により健康コードのバリアフリー利用が可能に

「公共交通機関では健康コードの提示が求められますが、提示できない場合はどうすればよいですか?」予防と...

機械学習による分類とその応用を理解するための図

機械学習は主に教師あり学習、教師なし学習、強化学習に分けられます。ただし、各手法の適用分野はそれぞれ...

「顔認識」は諸刃の剣です。どうすればそれを利用して被害を回避できるのでしょうか?

[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...

AIがITリーダーにコストの最適化とリスクの軽減をどのように支援するか

AI は近い将来、IT リーダーにとって最優先事項となる可能性が高いものの、レポートでは、世界中で経...

AIやIoT技術を活用した企業が職場復帰する際に考慮すべきこと

新型コロナウイルス感染症のパンデミックにより、社会の多くの分野でデジタル変革が加速し、人工知能ツール...

アースデイ 2021: AI、ブロックチェーン、ライフスタイルの選択、IoT が地球を救う方法

昨日、私たちは地球の最大の課題に取り組む絶好の機会であるアースデーを祝いました。 COVID-19パ...

AIが私の本を盗作してAmazonで販売したのですか? !

ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...

最新の RLHF は言語モデルの「ナンセンス」を救います!微調整効果はChatGPTよりも優れている、と中国の共著者2人が発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...