オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを上回り、SOTA に到達することは、多くの場合、トップ カンファレンスの論文の標準的な特徴になります。同時に、いくつかのベンチマークは確かに AI の発展を促進しており、たとえば ImageNet ベンチマークは近年の AI ブームに大きく貢献しています。

現在でも、ImageNet ベンチマークは研究において中心的な役割を果たしており、Google の Vision Transformer などのいくつかの新しいモデルは、論文の中で依然として ImageNet 手法と比較されています。

しかし、特定のベンチマークが常にリストのトップに表示され、その後に高品質のベンチマークが導入されない場合、ベンチマークに依存して開発を推進するというこのアプローチには問題があります。

最近、ウィーン医科大学とオックスフォード大学の研究者らがAIベンチマークマップの調査を実施し、2013年以降のCVとNLPの分野で406のタスクに対する1,688のベンチマークを数えました。調査結果:多数のベンチマークが急速に飽和状態に近づいており、一部のベンチマークは棚上げされている一方で、NLP分野では2020年以降、新しいベンチマークの確立が減少し、推論や推論に関連する高レベルのタスクへと方向転換している。

論文の中で著者らは、大規模なコミュニティのコラボレーションとベンチマークのパフォーマンスを現実世界の有用性と影響に結び付けることに重点を置く今後の取り組みを呼びかけている。

AIベンチマークの1.33%が「保留中」

上の図に示すように、単一のベンチマークから開始すると、ベンチマーク上の SOTA には、安定した成長、停滞または飽和、停滞後の飛躍という 3 つの状態があります。このうち、安定成長は技術の安定性を表し、停滞は技術の進歩能力の欠如を表し、爆発的成長は技術の飛躍的進歩を指します。

実際、近年、NLP などの主要分野における新しいベンチマークのかなりの数が急速に飽和状態になり、特定のベンチマーク機能に対して過度に最適化されたモデルが設計され、他のデータに一般化できないことが多くなりました。

現在、こうした現象は、上図の CIFAR-10 と CIFAR-100 の状況のように、同じ分野の異なるベンチマークにも広がっています。

同時に、量的には困った状況もあります。例えば、「2021年人工知能指数レポート」では、CVベンチマークの数は増え続けるタスク要件を満たすことができるかもしれないと指摘されていますが、一方でNLPモデルの成長率は既存の質問応答や自然言語理解のベンチマークを上回っています。

マルティネス・プラメッド氏のような学者たちは、CIFAR-100やSQuAD1.1など、25の一般的なAIベンチマークの背後にある「ストーリー」を分析した。彼らは、「SOTAフロンティア」は、アメリカやアジアの大学とテクノロジー企業が協力する組織など、特定の長期的協力コミュニティによって支配されていることを発見した。

さらに、他の学者は、多数の AI ベンチマーク作業におけるデータセットの使用と再利用の傾向を分析し、「よく知られている」データセットの大部分が少数の著名な組織によって提案されており、これらのデータセットの一部は新しいタスクに再利用されることが増えていることを発見しました。 NLP は例外であり、新しいタスク固有のベンチマークの導入と使用が平均を上回っています。

この研究では、ウィーン医科大学とオックスフォード大学の研究者らが、飽和と棚状化が非常に一般的であることを示しています。一般的には、次のような傾向があります。

1. 研究への関心の欠如が停滞の原因の一つである。

2. あらゆるベンチマークのほとんどは、すぐに技術的な停滞または飽和状態に達します。

3. ImageNet ベンチマークのように、継続的な成長が見られる場合もあります。

4. パフォーマンス改善のダイナミクスは、明確に識別できるパターンには従いません。場合によっては、停滞期間の後に予測できない飛躍が続くことがあります。

キャプション:ベンチマークの発展傾向には、安定成長、停滞または飽和、停滞後の飛躍という3つがあります。

さらに、1,688 のベンチマークのうち、完全に利用されていたのは 66% のみで、33% は保留中でした。同時に、ベンチマークのもう 1 つの傾向として、特定の確立された機関や企業のデータセットが主流となっていることが挙げられます。

2. NLPベンチマークは困難な課題に直面している

過去数年間、履歴書分野のベンチマークが主流でしたが、NLP も盛んになり始めています。 2020 年には、新しいベンチマークの数は減少し、Google の BIG-bench や Facebook の NetHack など、推論をテストするなど、より難しいタスクに重点が置かれるようになりました。

上の図は、NLP のベンチマーク ライフサイクルを示しています。ほとんどのタスクに対して、いくつかの主流ベンチマークが 2011 年から 2015 年の間に確立されたことがはっきりとわかります。この期間中に登場した SOTA はわずかです。 2016年以降、新しいベンチマークを確立するペースが大幅に加速し、翻訳と自然言語モデリングのパフォーマンスが最も顕著でした。2018年と2019年には、さまざまなタスクで大量のベンチマークが確立されました。2020年は転換点となり、新しいベンチマークの確立が減少し、方向は推論または推論関連の高レベルタスクに変わりました。

全体的に、AI ベンチマークの現在の傾向は、確立された機関 (業界を含む) のベンチマークの傾向により、ベンチマークの偏りと代表性に関する懸念が生じていることです。多くのベンチマークは AI のパフォーマンスを現実世界と完全に一致させていないため、さまざまな AI 機能とシナリオをカバーする、品質が保証された少数のベンチマークを開発することが望ましい場合があります。

最後に、研究者らは、将来的には、高品質のベンチマークを確立するために、多くの機関や知識分野からの大規模な共同チームによって新しいベンチマークが開発されるべきだと考えています。

<<:  インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

>>:  専門家の視点:量子コンピューティングの開発動向

ブログ    

推薦する

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

モノのインターネットは現代のビジネスと経済全体を急速に変革しています。この革新的なテクノロジーにより...

うつ病で人生が押​​しつぶされたとき、AIを使ってうつ病を診断することで、どん底を味わう人々を救えるのでしょうか?

韓国のお笑いタレント、パク・チソンさんとその母親が自宅で死亡しているのが発見されたが、これはうつ病が...

チャットボット構造のガイドライン

数日前、私は「チャットボットをよりエレガントに設計する方法」という記事を書きました。何人かの友人が私...

2024年のクラウドとAIのトレンド

新しいテクノロジー時代の幕開けを迎えた今、クラウド コンピューティングと人工知能 (AI) の融合に...

...

人工知能時代に対応するための知識と技術の蓄積を向上させる

記者がインタビューした専門家によると、人工知能などの知能化技術の応用が加速するにつれ、雇用への構造的...

5Gベースバンドに機械学習ユニットを追加:クアルコムには多くのAI脳の穴がある

最も先進的な AI テクノロジーは、最も広く使用されているモバイル チップに使用されています。最近、...

言語学からディープラーニングNLPまで、自然言語処理の概要

この記事は、2 つの論文から始まり、自然言語処理の基本的な分類と基本概念を簡単に紹介し、次にディープ...

AIがシュレーディンガー方程式を正確かつ計算効率よく解く、Nature Chemistry誌に発表

量子力学の基本方程式の一つとして、シュレーディンガー方程式は常に幅広い注目を集めてきました。昨年、D...

...

LLM の成功に欠かせない基礎: RLHF とその代替技術

LLM について議論するときは、必ず「人間のフィードバックによる強化学習 (RLHF)」と呼ばれるプ...

売上高2,684億元の背後にあるアリババのAI技術の全貌

先日終了した双十一では、天猫の取引額は2,684億元に達し、前年比25.7%増加した。この成果の裏に...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

GANは音声を使って画像を生成できるようになった

[[432735]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...