NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

NLPモデル「包括的分析+評価ランキング」、CMUの最新ツールが優れたアイデアを見つけるのに役立ちます

  [[396522]]

CMU は、復旦大学とオハイオ州立大学の研究者と共同で、モデルの理解度分析とモデル評価ランキングを組み合わせた研究支援ツールである ExplainaBoard を立ち上げました。これは、単一システムの診断、データセット分析、信頼性分析などのタスクを完了することができ、研究者の学術経験を効果的に向上させます。

論文を読んでいるときに他の人のアイデアは理にかなっていると感じても、自分のアイデアを設計するときにどこから始めればよいかわからないことがありますか? 「モデルはうまく機能しているが、詳細かつ包括的な説明がない」という理由で、レビュー担当者から低い評価を受けることがよくありますか?

新しいモデル構造の探索に疲れたとき、データセットの特性を探索して、分野の発展をより健全な方向に導くことに興味がありますか?新しい分野に初めて触れたとき、その分野の現在の開発状況やボトルネックをどうすれば素早く理解できるでしょうか?

少し前にインターネット上で白熱した議論を巻き起こした自動レビューシステムを覚えていますか? CMU のチームは最近、説明可能なシステムランキング (Explain a Board) を発表しました。これは科学研究の補助製品として位置付けられています。「モデル理解可能分析」と「モデル評価ランキング」という一見無関係な 2 つの要素を巧みに組み合わせ、日常の科学研究で重要でありながら見落とされがちな多くの部分を「ワンクリック」操作に変換し、研究者の学術体験を向上させます。

システムリンク:
翻訳:

論文リンク:
出典:http://arxiv.org/pdf/2104.06387.pdf

現在、ExplainaBoard は、単一タスクでは分類、抽出、生成を含む9 つの主流の NLP タスクをサポートしており、 40を超えるデータセットと300を超えるモデルが関係します。マルチタスクでは、 40を超える言語と9 つのクロス言語タスクを含む多言語評価ベンチマークをサポートしています。

技術通訳

ディープラーニング モデルの急速な発展により、リーダーボードはさまざまなシステムのパフォーマンスを追跡するための主流のツールになりました。しかし、リーダーボードで上位にランクされるモデルには威信が伴うため、多くの研究者は、モデルの特性に関するより深い科学的理解を無視して、評価指標の数を改善することにのみ焦点を当てています。

ExplainaBoard はこのような背景から生まれました。ExplainaBoard はさまざまなモデルをランク付けするだけでなく、モデルやデータ セットに関連する、理解しやすくインタラクティブで信頼できる分析メカニズムを多数提供します (下の図を参照)。

具体的には、以下の機能を実行できます。

単一システム診断

対処できる質問: 「私のモデルの得意なこと/苦手なことは何ですか?

診断システム

解決できる質問: 「私のモデルは他のモデルと比べてどう優れているのか?

データセット分析

回答可能な質問: 「データセットの特徴は何ですか?

一般的なエラー分析

解決できる問題: 「システムの一般的な予測誤りのトップ 5 は何ですか?

きめ細かなエラー分析

回答可能な質問: 「モデルの予測ミスはどこで発生するのか、そしてそれはどのようなものか?

システムの組み合わせ

解決できる問題: 「上位 5 つのシステムを組み合わせると、より強力なシステムが得られますか?

信頼性分析

答えられる質問:「モデルの予測はどの程度信頼できるか?

校正分析

解決できる問題: 「予測の信頼性は、その正確さに応じてどのように調整されるか?

応募の見通し

応用面では、プロジェクトリーダーの劉鵬飛博士によると、ExplainaBoardはDeepMind、Google、Huggingface、Paperswithcodeなど多くの企業から協力の招待を受けており、投資家の好意も得ているという。

たとえば、Google と Deepmind の最新の arXiv 作業 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation では、ExplainaBoard を使用して多言語評価ベンチマークをアップグレードしています。

<<:  シーメンスは自動化を推進力として変革の新たな機会を捉える

>>:  新型コロナウイルスワクチンの製造はAIに頼っているのか?ジョンソン・エンド・ジョンソンとPwCがAIをどのように活用しているかを学ぶ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

ターゲット検出用のGPT-4V?ネットユーザーの実地テスト:まだ準備ができていません。検出されたカテ...

インテル子会社が自動運転向け5nm RISC-Vプロセッサをリリース

CES(コンシューマーエレクトロニクスショー)がラスベガスで盛況だ。インテル、マイクロソフト、グーグ...

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

最近、上海人工知能研究所とOpenNLPLabの研究チームが、ソフトマックスベースの注意メカニズムを...

...

JavaScript におけるいくつかの一般的なソートアルゴリズムの共有

説明する各ブラウザテストから取得されるデータは異なります。たとえば、Chrome を使用してテストす...

AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始

[[276827]]今日、インターネット サービスは根本的な変化を遂げており、徐々にインテリジェント...

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...

推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?ハーバード大学を中退した2人の若者が、大規模...

AIとコネクテッドデバイスの急成長が新たなデジタル格差を生み出している理由

接続デバイスと AI 言語モデルの急速な成長により、私たちの生活、仕事、コミュニケーションの方法が変...

AI 教育がアメリカの高校の授業に導入: 普遍的な AI 学習までどのくらいの距離があるのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2024年に生成AIを支援する3つのテクノロジー

ChatGPT の素晴らしい初年度が終わりに近づくにつれ、生成型人工知能 (genAI) と大規模言...

香水アートとAIが出会うとき

[51CTO.com 速訳] 香水は依然として人工物とみなされており、「スーパーな鼻」を持つトップマ...