Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google アシスタントのような AI アシスタントは、追加データや再トレーニングを必要とせずに、新しいサービスをより適切にサポートするにはどうすればよいでしょうか?

これは、ドメイン固有のパラメータを使用せずにサービス間でモデルを使用する方法を紹介した最近の研究で、Google の研究者が答えようとした質問です。

その一環として、研究チームは、タスク指向の対話コーパスとして公開されているものとしては最大の規模を誇るコーパス、スキーマガイド付き対話 (SGD) コーパスをリリースしました。

[[280742]]

「今日のバーチャルアシスタントは、フライトの検索、近くのイベントや映画の検索、予約、ウェブからの情報の取得など、ユーザーがさまざまなタスクを実行するのに役立ちます」と、ソフトウェアエンジニアのAbhinav Rastogi氏とGoogle ResearchのエンジニアリングリーダーPranav Khaitan氏はブログ投稿に書いています。

「驚異的な進歩にもかかわらず、最先端のモデルでは適応性の課題が見落とされがちです。これは、仮想アシスタントが直面する規模と複雑さに見合う適切なデータセットが不足していることが一因です。」

このため、 SGD には、銀行業務やイベントからメディア、カレンダー、旅行、天気まで、17 のドメインのサービスとのやり取りを含む、人々と仮想アシスタント間の 18,000 件を超える注釈付き会話が含まれています。

ほとんどのドメインでは、データセットには複数の異なる API が含まれており、その多くは機能が重複していますが、さまざまなインターフェースが典型的な現実世界のシナリオを反映しています。評価セットにはトレーニング セットに含まれていないサービスが含まれており、主に API の変更や新しい API の追加に対するモデルの堅牢性を定量化するために使用されます。

前述のパターン ガイド アプローチでは、各サービスまたは API の自然言語記述とそれに関連する属性を活用して分散セマンティック表現を学習します。これは、対話システムへの追加入力として使用され、その後、単一のモデルとして実装されます。

研究チームによると、この統合モデルはGoogleのオープンソース会話状態追跡モデルの中核をなすもので、異なるサービスにおける類似概念間の共通知識表現を促進し、トレーニングデータにはなかった新しいサービスでの動作を可能にするという。

「このデータセットは、大規模な会話モデルを構築するための優れたベンチマークとなるだろうと信じている」とラストギ氏とカイタン氏は書いている。 「研究コミュニティがこれを会話型テクノロジーの進歩のために革新的な方法で活用してくれることに興奮し、期待しています。」

新しいデータセットとモデルのリリースは、Google の Coached Conversational Preference Elicitation (CCPE) と、2 人の間の 1 対 1 の会話のデータセットである Taskmaster-1 のオープンソース化に続くものです。 (前者には、映画の好みについての人々との会話が 500 件、合計 10,000 件、合計 12,000 件の会話が含まれていました。)

Google はこれを、人間レベルのパフォーマンスを実現できる自然言語システムのモデリングに向けた一歩だと説明しています。

<<:  顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

>>:  AI ソフトウェアは教育分野にどのように役立つのでしょうか?

推薦する

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

1日あたり2億人以上のアクティブユーザーを抱える快手には、130億本以上の短編動画が蓄積されており、...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...

...

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...

...

AIとコグニティブコンピューティングがIoTデータを理解

今日、世界中がインダストリー4.0とそれがもたらすテクノロジーに注目しています。人工知能 (AI) ...

再帰アルゴリズムの時間計算量について十分に理解していない

[[414048]]この記事では、面接の質問と面接のシナリオを使用して、再帰アルゴリズムの時間計算量...

...

スタートラインで勝つ: データサイエンスに必須の 5 つのスキル

データサイエンスの分野は競争が激しく、人々はますます多くのスキルと経験を急速に身につけています。 「...

IDC: 人工知能への世界的支出は4年で倍増すると予想

IDC グローバル人工知能支出ガイドによると、世界の人工知能 (AI) 関連の支出は、今後 4 年間...

Capital One は NLP を使用して SMS 経由で顧客と潜在的な詐欺行為について話し合う

[[412098]] [51CTO.com クイック翻訳]キャピタル・ワンのモバイル、ウェブ、会話型...

CPU、TPU、GPU、DPU、QPUについて学ぶ

AIの人気に伴い、CPU、TPU、GPU、DPU、QPUなどの略語がさまざまなメディアで飛び交ってい...

既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法

[[210160]]機械はどのように学習するのでしょうか?人間の脳は継続的に経験を蓄積する能力があり...

...