CMU のポスドクらが NLP データ処理ツールを発表

CMU のポスドクらが NLP データ処理ツールを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

あなたの研究のアイデアをお知らせいただければ、適切なデータセットをお勧めします。

もちろん、オンデマンドで検索したり、さまざまなデータ セットの人気度をマークしたりすることもできます。

さらに強力なのは、データセットの分析に直接役立つことです。

コーパスにヘイトスピーチや性差別的なコーパスなどが含まれているかどうか、また、それらがどの程度の割合で含まれているかがわかります。

上記はDataLabと呼ばれる汎用データ処理プラットフォームです。

1,715 のデータセットが含まれており、データ診断、データ検索、グローバル分析、標準化処理の4 つの機能を提供します。

これは、ユーザーがデータの特性を分析するのに役立つだけでなく、さまざまなデータセットを標準化するのにも役立ちます。

このプロジェクトの考案者の一人は、復旦大学で博士号を取得し、カーネギーメロン大学の博士研究員を務める劉鵬飛氏です。

便利、便利、そして便利

実際、多くの人にとって、モデルの構築はデータ セットの段階で行き詰まることがよくあります。

インターネット上には多くのデータセットがありますが、その品質はさまざまです。

さらに、多くの初心者は、どのようなデータセットを使用すればよいのかについても混乱しています。

次に、幅広いデータセットをカバーし、分析も実行できるプラットフォームが、必要なデータセットを見つけるのに役立つ場合があります。

このような背景を踏まえて、Liu Pengfei 氏のチームは DataLab を設立しました。

たとえば、データセットの検索を考えてみましょう。DataLab では、モデルの要件に応じて適切なデータセットをフィルタリングできるだけでなく、最も人気のあるデータセット、ダウンロード数が最も多いデータセット、アクセス数が最も多いデータセットを確認することもできます。

結局のところ、「みんなが良いと言うのは良いことだ」ということであり、この格言はどこにでも当てはまります。

それでは標準化について見てみましょう。

DataLab は、さまざまなデータセットを統一された形式に正規化できる 86 個の関数を提供します。

モデルを構築するときにどのデータセットを使用すればよいかわからない場合は、DataLab に直接問い合わせることができます。

たとえば、研究のアイデアを入力する場合:

ビールのレビューに含まれる肯定的な感情と否定的な感情を識別できるモデルをトレーニングしたいと考えています。

DataLab では 20 個のデータ セットから選択でき、それぞれに詳細な紹介が付いています。

DataLab は、データ セットの分析および処理機能の提供に加えて、既存のデータに基づいたグローバルな視点の分析も提供できます。

例えば、世界各国の AI ローカリゼーション技術の蓄積を示すことができます。

開発者の劉鵬飛氏は、データ、特にラベル付けされたデータがAIシステムのトレーニングの鍵となると語った。多くの場合、データセットの蓄積は技術的な障壁を反映する可能性があります。

DataLab のビッグデータ分析から、既存の公開データセットや人気データセットの多くが主に英語であるため、米国は言語データセットにおいて大きな優位性を持っていることがわかります。

それに比べて、中国のデータセットの蓄積は十分ではありません。

同時に、このプラットフォームは、さまざまなタスク データ セットに基づいて、世界中のさまざまな研究機関のパフォーマンスをランク付けすることもできます。

下の表から、CMU、Microsoft Research Asia、JHU、UWがトップ4にランクインし、清華大学が国内最高位にランクインしたことがわかります。

ただし、プラットフォーム開発者は、プラットフォーム上のデータ統計は、ユーザーが送信したデータが不完全であるため不正確/不正確な場合があり、あくまでも参考用であることを全員に通知します。

ユーザーは、DataLab 公式 Web サイトでデータを修正することもできます。

復旦大学の卒業生が率いる

DataLab は、カーネギーメロン大学言語技術研究所 (LTI) の博士研究員である Pengfei Liu氏が主導しました。

劉鵬飛は、2019年に復旦大学コンピュータサイエンス学部で邱希鵬教授と黄玄静教授の指導の下、博士号を取得しました。

彼の研究対象には、NLP モデルの解釈可能性、転移学習、タスク学習などが含まれます。

博士課程在学中、彼はIBM博士奨学金、マイクロソフト奨学金、テンセント人工知能奨学金、百度奨学金など、コンピューターサイエンスの分野でさまざまな奨学金を獲得しました。

DataLab プラットフォームを構築した当初の意図について、Liu Pengfei 氏は QuantumBit に次のように語った。

機械学習の分野には標準化と統一が必要な技術が多すぎます。また、技術を統合する必要もあります。そうしないと、リソースの無駄が生じます。

彼は、カリフォルニア大学バークレー校のスター研究所 RISELab が、高性能分散実行フレームワーク Ray など、多くの斬新な技術ツールを開発してきたと述べました。

その舵取り役であるイオン・ストイカ教授は、共有セッションの中で「団結が成功の鍵だ」と述べた。

今回の DataLab の取り組みもまさにその通りです。

その意義は、「データ + 操作」の統一されたフレームワークを提供することにあり、これにより、将来的には多くのものが次の 2 つに変換されます。

  1. 新しいデータ型を定義/導入する。
  2. 新しいデータ操作を定義/導入します (基本的にデータを再構築する、現在人気の Prompt Learning など)。

このようにして、研究者と開発者は、必要なさまざまなデータ分析と操作を実行するための統一されたエントリ ポイントを持つことができます。

DataLabでは、さまざまなデータ型と操作の種類を標準化しています。これは、ユーザーがすでに先人によって解決されていることに時間を浪費することを防ぎ、代わりに既存の技術を使用して新しい技術開発を探索することを目的としています。

もちろん、もう少し深く掘り下げてみると、Liu Pengfei 氏は、DataLab の創設も内部の原動力から生まれたものだと述べています。

自分の行いが、人類社会の生産性の発展を促進する上で重要な役割を果たすようにするにはどうすればよいか。

実は、劉鵬飛氏が開発者や研究者向けに便利な「ガジェット」を作ったのは今回が初めてではない。

たとえば、 ExplainaBoard は、開発者が革新的な学術的アイデアを思いつくのに役立つ補助ツールです。

論文レビュー結果を自動的に生成できるデモ Web サイトReviewAdvisorもあります。PDF 論文をアップロードするだけで、レビュー結果が自動的に生成されます。

ちなみに、Liu Pengfei 氏も Zhihu で NLP に関する研究経験の一部を共有する予定です。

たとえば、この記事「現代の自然言語処理技術の発展における『第 4 のパラダイム』」は、ネット上で大きな話題を呼んでいます。

ご興味がありましたらぜひ知湖へお越しください〜

DataLab アドレス:

翻訳元:

GitHub アドレス:

https://github.com/ExpressAI/DataLab/

劉鵬飛志虎:

https://www.zhihu.com/people/liu-peng-fei-65-23/posts

<<:  Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

>>:  FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習による建物のエネルギー効率の向上

エネルギー効率などの複雑な建物の問題を、人間の介入なしに解決するにはどうすればよいでしょうか。建物の...

口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

先月末、Pika 1.0と呼ばれる動画生成AIモデルがソーシャルメディア上で話題になった。3Dアニメ...

...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

マイクロソフトの英語音声評価機能がアメリカ英語一般版で開始され、教育業界に力を与える

発音は言語学習の重要な部分です。 Microsoft Azure Cognitive Service...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

AI作曲家の出現により、人類はどこへ向かうべきでしょうか?

AIを使って音楽を作曲した場合、AIが作曲した音楽と人間が作曲した音楽を区別できますか?今日はその...

...

プライベートコレクション、オープンソースのトップディープラーニングプロジェクト9つ

[[203962]]過去数年間で、コンピューター科学者は人工知能 (AI) の分野で大きな飛躍を遂げ...