オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを上回り、SOTA に到達することは、多くの場合、トップ カンファレンスの論文の標準的な特徴になります。同時に、いくつかのベンチマークは確かに AI の発展を促進しており、たとえば ImageNet ベンチマークは近年の AI ブームに大きく貢献しています。

現在でも、ImageNet ベンチマークは研究において中心的な役割を果たしており、Google の Vision Transformer などのいくつかの新しいモデルは、論文の中で依然として ImageNet 手法と比較されています。

しかし、特定のベンチマークが常にリストのトップに表示され、その後に高品質のベンチマークが導入されない場合、ベンチマークに依存して開発を推進するというこのアプローチには問題があります。

最近、ウィーン医科大学とオックスフォード大学の研究者らがAIベンチマークマップの調査を実施し、2013年以降のCVとNLPの分野で406のタスクに対する1,688のベンチマークを数えました。調査結果:多数のベンチマークが急速に飽和状態に近づいており、一部のベンチマークは棚上げされている一方で、NLP分野では2020年以降、新しいベンチマークの確立が減少し、推論や推論に関連する高レベルのタスクへと方向転換している。

論文の中で著者らは、大規模なコミュニティのコラボレーションとベンチマークのパフォーマンスを現実世界の有用性と影響に結び付けることに重点を置く今後の取り組みを呼びかけている。

AIベンチマークの1.33%が「保留中」

上の図に示すように、単一のベンチマークから開始すると、ベンチマーク上の SOTA には、安定した成長、停滞または飽和、停滞後の飛躍という 3 つの状態があります。このうち、安定成長は技術の安定性を表し、停滞は技術の進歩能力の欠如を表し、爆発的成長は技術の飛躍的進歩を指します。

実際、近年、NLP などの主要分野における新しいベンチマークのかなりの数が急速に飽和状態になり、特定のベンチマーク機能に対して過度に最適化されたモデルが設計され、他のデータに一般化できないことが多くなりました。

現在、こうした現象は、上図の CIFAR-10 と CIFAR-100 の状況のように、同じ分野の異なるベンチマークにも広がっています。

同時に、量的には困った状況もあります。例えば、「2021年人工知能指数レポート」では、CVベンチマークの数は増え続けるタスク要件を満たすことができるかもしれないと指摘されていますが、一方でNLPモデルの成長率は既存の質問応答や自然言語理解のベンチマークを上回っています。

マルティネス・プラメッド氏のような学者たちは、CIFAR-100やSQuAD1.1など、25の一般的なAIベンチマークの背後にある「ストーリー」を分析した。彼らは、「SOTAフロンティア」は、アメリカやアジアの大学とテクノロジー企業が協力する組織など、特定の長期的協力コミュニティによって支配されていることを発見した。

さらに、他の学者は、多数の AI ベンチマーク作業におけるデータセットの使用と再利用の傾向を分析し、「よく知られている」データセットの大部分が少数の著名な組織によって提案されており、これらのデータセットの一部は新しいタスクに再利用されることが増えていることを発見しました。 NLP は例外であり、新しいタスク固有のベンチマークの導入と使用が平均を上回っています。

この研究では、ウィーン医科大学とオックスフォード大学の研究者らが、飽和と棚状化が非常に一般的であることを示しています。一般的には、次のような傾向があります。

1. 研究への関心の欠如が停滞の原因の一つである。

2. あらゆるベンチマークのほとんどは、すぐに技術的な停滞または飽和状態に達します。

3. ImageNet ベンチマークのように、継続的な成長が見られる場合もあります。

4. パフォーマンス改善のダイナミクスは、明確に識別できるパターンには従いません。場合によっては、停滞期間の後に予測できない飛躍が続くことがあります。

キャプション:ベンチマークの発展傾向には、安定成長、停滞または飽和、停滞後の飛躍という3つがあります。

さらに、1,688 のベンチマークのうち、完全に利用されていたのは 66% のみで、33% は保留中でした。同時に、ベンチマークのもう 1 つの傾向として、特定の確立された機関や企業のデータセットが主流となっていることが挙げられます。

2. NLPベンチマークは困難な課題に直面している

過去数年間、履歴書分野のベンチマークが主流でしたが、NLP も盛んになり始めています。 2020 年には、新しいベンチマークの数は減少し、Google の BIG-bench や Facebook の NetHack など、推論をテストするなど、より難しいタスクに重点が置かれるようになりました。

上の図は、NLP のベンチマーク ライフサイクルを示しています。ほとんどのタスクに対して、いくつかの主流ベンチマークが 2011 年から 2015 年の間に確立されたことがはっきりとわかります。この期間中に登場した SOTA はわずかです。 2016年以降、新しいベンチマークを確立するペースが大幅に加速し、翻訳と自然言語モデリングのパフォーマンスが最も顕著でした。2018年と2019年には、さまざまなタスクで大量のベンチマークが確立されました。2020年は転換点となり、新しいベンチマークの確立が減少し、方向は推論または推論関連の高レベルタスクに変わりました。

全体的に、AI ベンチマークの現在の傾向は、確立された機関 (業界を含む) のベンチマークの傾向により、ベンチマークの偏りと代表性に関する懸念が生じていることです。多くのベンチマークは AI のパフォーマンスを現実世界と完全に一致させていないため、さまざまな AI 機能とシナリオをカバーする、品質が保証された少数のベンチマークを開発することが望ましい場合があります。

最後に、研究者らは、将来的には、高品質のベンチマークを確立するために、多くの機関や知識分野からの大規模な共同チームによって新しいベンチマークが開発されるべきだと考えています。

<<:  インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

>>:  専門家の視点:量子コンピューティングの開発動向

ブログ    
ブログ    
ブログ    

推薦する

国勢調査ではAISのAIロボットが初めて「世帯内に入る」

「こんにちは、泰達街人口調査事務所です。」現在、第7回全国人口調査が盛んに行われている。天津浜海新...

2019年にRedditの機械学習セクションで人気のプロジェクト17選:最新のコードとリソースがすべて利用可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Google AIオープンソース:携帯電話で3D物体検出が可能、しかもリアルタイム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...

医療用ロボットの具体的な用途は2つありますか?

最近では、手術を補助するさまざまなロボットが病院のあちこちで見られるようになりました。これらのロボッ...

...

...

AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

[[388981]]今まで見たことのない犬種や色であっても、私たちは一目見てその犬を認識することがで...

これは人工ニューラルネットワークの非常に簡単な説明です

[[419321]]導入私は機械学習についてはよく知りませんが、先月、GitHub で Go のサン...

顔認識技術が「無人小売」時代の到来を牽引

序文:顔認識は現在最も人気のある人工知能技術として、生産と生活のあらゆる側面で広く使用されています。...

あなたは人工知能についてどれくらい知っていますか?普通の人として、私たちはもっと多くのことを知る能力を持っているのでしょうか?

それはとても神秘的で、本当にハイエンドで、急速に発展しています!それは私たちの周りにあり、あなたは気...

アルゴリズムエンジニアのメリット: 超実践的技術ロードマップ

これは、会社のアルゴリズム グループの同僚向けに作成された技術ロードマップです。主な目的は、技術ルー...

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...