ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

[[286340]]

【画像出典:venturebeat オーナー:venturebeat 】

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最も優れたテキスト解析推奨アルゴリズムであっても、特定のサイズのデータ​​セットによって妨げられます。既存のほとんどの方法よりも高速で優れた分類パフォーマンスを提供するために、MIT-IBM Watson AI ラボと MIT の幾何データ処理グループのチームは、埋め込みや最適輸送などの一般的な AI ツールを組み合わせた手法を設計しました。

彼らは、このアプローチは、一人の人物の歴史的な好み、または集団の好みだけを考慮することで、何百万もの可能性をカバーできると主張している。

「インターネット上には膨大な量のテキストがあり、その内容を整理するのに役立つものは何でも非常に有用だ」と、MIT助教授でこの研究の主執筆者であるジャスティン・ソロモン氏は声明で述べた。

これを実現するために、ジャスティン・ソロモン氏とその同僚は、テキストのコレクションをコレクション内の共通語に基づいてテーマごとに整理するアルゴリズムを使用しました。次に、各テキストを 5 ~ 15 の最も重要なトピックに分割し、ランキングを通じて各トピックのテキスト全体に対する重要度を表示します。

さらに、埋め込み(この場合は単語のデータ表現)は単語間の類似性を明らかにするのに役立ち、最適なトランスポートは複数の宛先間でオブジェクト(またはデータ ポイント)を移動する最も効率的な方法を計算するのに役立ちます。同時に、埋め込みにより、「両方の長所を活用する」ことが可能になります。つまり、まずコレクション内のトピックを比較し、次に共通トピックの重複の程度を測定することです。

研究者らは、この方法は大量の書籍や文書をスキャンするときに特に効果的だと述べている。 Gutenberg Project データセットの 1,720 タイトルを評価したところ、アルゴリズムはすべてのタイトルを 1 秒未満で比較することに成功しました。これは、次に優れたパフォーマンスを示したアルゴリズムの約 800 倍の速さです。

さらに、このアルゴリズムは他の方法と比較して、ドキュメントの分類に優れています。たとえば、Gutenberg データセット内の書籍を著者別にグループ化したり、Amazon の製品レビューを部門別にグループ化したりします。同時に、アルゴリズムはトピックのリストも提供し、特定のドキュメントが推奨される理由をユーザーに説明できるため、ユーザーが理解しやすくなります。

しかし、研究者たちは現在の技術レベルに満足していない。また、現在実装されているように個別にではなく、埋め込み、トピック モデル、最適なトランスポートを共同で最適化できるエンドツーエンドのトレーニング手法の開発も継続します。応用面では、彼らは自分たちの手法をより大きなデータセットに適用し、画像や 3D データ モデリングへの応用を調査したいと考えています。

ジャスティン・ソロモン氏は、自身の研究をまとめた論文の中で、(私たちのアルゴリズムが)違いを捉える方法は、まず各文書をわかりやすい概念に分解し、次にその概念を比較するという、人が 2 つの文書を比較する方法と同じであるようだと述べています...

さらに詳しい考察として、ジャスティン・ソロモン氏は次のように述べています。

単語埋め込みによってグローバルな意味言語情報が提供され、トピック モデルによってコーパス固有のトピックとトピック分布が提供されます。経験的に、これらの要素が組み合わさることで、さまざまなメトリックベースのタスクで優れたパフォーマンスが得られます。

<<:  マイクロソフトの無料 AI エッセイ採点ソフトウェアがアップグレード: IELTS、CET-4、CET-6 に使用可能

>>:  GitHub 6600 スター、中国人向け: Microsoft AI 教育および学習共同構築コミュニティ 2.0 が開始!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

C# アルゴリズムで実装された文字列反転の簡単な分析

C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...

なぜマスク氏の新しい「脳コンピューターインターフェース」は大きな進歩なのでしょうか?

昨日のマスク氏の発表を見た後、サイバーパンク映画をたくさん思い出し、一晩中夢を見ました。北京時間の昨...

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

スマートテクノロジーが現代のビジネス運営を改善する7つの方法

1. 生産性の向上多くの組織がリモートワークに移行するにつれて、効率性を維持することが重要になります...

Javaソートアルゴリズムの概要(I):挿入ソート

挿入ソートの基本的な操作は、ソートされた順序付けられたデータにデータを挿入し、それによって番号が 1...

人工知能がソフトウェアテストに混乱をもたらす4つの方法

ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...

ビジョンレーダーは、センサーコンピューティングによる次世代の自動運転システムの重要なコンポーネントです。

[[438879]] 2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価...

...

テクノロジーはどのようにして人々を怠惰にするのでしょうか?

過去数十年にわたり、技術の進歩は私たちの生活、仕事、コミュニケーションの方法に革命をもたらしました。...

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Over...

AI を理解する: 人工知能システムで説明可能性を追求する理由

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

農家は収穫を祝い、秋分の日にドローンがその技を披露するのを見てください!

黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...

AI は清華大学の博士号取得者がラップの歌詞を書くのを手伝い、次のレベルに進みました。AI はクロストークを行うことができるのでしょうか?

今年、「中国の声」の話題は音楽そのものの議論からは程遠いが、これは重要ではない。注目されているのは、...

新しい小売業界における人工知能の応用

インターネットの急速な発展に伴い、伝統的なオフライン小売チャネルは弱体化の兆候を見せ始めており、中国...