Google が 11 の言語をカバーする TyDi QA コーパスをリリース

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]

多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語をカバーする質問応答コーパス TyDi QA をリリースしました。

質問応答テクノロジーは、「イカ墨は食べても安全か?」といった日常生活における問題の解決に役立ちます。ユーザーは音声アシスタントに質問したり、検索キーワードを入力して回答を期待することができます。昨年、私たちは実際のユーザーのニーズを反映した課題を提供するために、英語版の Natural Questions Dataset を研究コミュニティにリリースしました。しかし、世界には何千もの異なる言語があり、その多くはセマンティクスの構築に非常に異なるアプローチを使用しています。たとえば、英語には 1 つのオブジェクト ("book") と複数のオブジェクト ("books") がありますが、アラビア語には、単数形 ("كتاب", kitab) または複数形 ("كتب", kutub) に加えて、2 つのオブジェクト ("كتابان", kitaban) を示す 3 番目の形式もあります。さらに、日本語などの一部の言語では、単語の間にスペースを使用しません。言語が意味を表現するさまざまな方法を理解できる機械学習システムを作成することは困難であり、そのようなシステムをトレーニングするには、適用されるさまざまな言語からのサンプルが必要です。

多言語の質問応答技術の研究を促進するために、本日、11 の異なる言語をカバーする質問応答コーパスである TyDi QA をリリースします。私たちの論文「TyDi QA: 類型的に多様な言語における情報探索型質問応答のベンチマーク」で説明されているように、私たちのコーパスは類型的多様性、つまり異なる言語は異なる構造的方法で意味を表現するという概念に触発されています。このコーパスでは類型的に互いに離れた言語のセットを選択したため、このデータセットで良好なパフォーマンスを発揮するモデルは、世界中の多数の言語に一般化されると期待しています。

多様な言語

TyDi QA には、11 の言語からの 200,000 を超える質問と回答のペアが含まれており、さまざまな言語現象とデータの課題を表しています。これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語など、ラテン文字以外のアルファベットを使用しています。アラビア語、フィンランド語、インドネシア語、スワヒリ語、ロシア語など、語の構成が非常に複雑な言語もあります。日本語では、次の 4 つのアルファベットが使用されます。

4色で表現されており、ハングル文字自体も組み合わせの強い字体になっています。言語も、英語やアラビア語のようにオンラインで利用できるデータが大量にあるものから、ベンガル語やスワヒリ語のようにデータがほとんどないものまで多岐にわたります。これらの課題に対処できるシステムは、多くの言語で成功すると期待しています。

実データの作成

研究コミュニティで使用された初期の QA データセットの多くは、まず人々に記事を提供し、次に記事で読​​んだ内容に基づいて質問を書くように依頼することによって作成されました。ただし、各質問に対する答えは書きながら確認できるため、この方法では答えと同じ単語が含まれる質問が作成されることがよくあります。その結果、このタイプのデータでトレーニングされた機械学習アルゴリズムは、単語の一致を優先し、ユーザーのニーズを満たすために必要なより微妙な回答を無視する傾向があります。

より自然なデータセットを構築するために、答えを知りたいがまだ答えを知らない人々からの質問を集めました。質問を促すために、私たちは人々にウィキペディアの興味深い一節を彼らの母国語で示しました。それから、私が示した内容では答えがわからず、実際に答えを知りたいと思う限り、どんな質問でも構いません。これは、道を歩いているときに、好奇心から何か興味深いものを見つけたときに質問が出てくるのと似ています。質問をするときには想像力を働かせるように奨励しています。たとえば、氷に関する記事を読むと、夏のアイスキャンディーを思い浮かべますか?素晴らしい!アイスキャンディーを発明したのは誰か尋ねます。重要なのは、質問が翻訳されたものではなく、その言語で直接書かれているため、多くの質問がコーパスの英語版にあるものと異なるということです。ベンガル語で質問があります。「সফেদা ফল খেতে কেমন?」(サポディラはどんな味がしますか?)サポディラって聞いたことありませんか?これは、サポジラが米国よりもインドで一般的だからかもしれません。

これらの質問ごとに、適切な言語で最適な一致する Wikipedia の記事を Google で検索し、質問者に記事内の回答を見つけて強調表示するように依頼しました。質問者が答えを見つけられなかった場合、質問と回答の間に興味深い相違が生じることは予想していましたが、世界中の言語における驚くほど幅広い言語現象と相まって、状況はさらに複雑であることがわかりました。

たとえば、フィンランド語では、質問と回答で「日」と「週」という単語が非常に異なって表現される興味深い例がいくつかあります。 Wikipedia の記事全体からこの回答文を正しく選択するには、システムがフィンランド語の単語 viikonpäivät、seitsenpäiväinen、viikko の関係を認識できる必要があります。

研究コミュニティとして共に進歩する

このデータセットが研究コミュニティの革新を推進し、世界中のユーザーにとってより便利な質問応答システムを生み出すことを願っています。コミュニティの進捗状況を追跡するために、参加者が機械学習システムの品質を評価できるリーダーボードを設置し、データセットを使用する質問応答システムもオープンソース化しました。リーダーボードを表示して詳細を確認するには、チャレンジの Web サイトにアクセスしてください。

著者について:

ジョナサン・クラークは、Google Research の研究科学者です。

<<:  Google Brainの主要研究:高速微分可能ソートアルゴリズム、桁違いに高速

>>:  過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

ブログ    
ブログ    

推薦する

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

セキュリティ業界は、人工知能の市場を長く有する業界として、人工知能の発展に対する理解がより明確で、そ...

AIとIoTの長所と短所

モノのインターネットは、私たちがテクノロジーや周囲の世界と関わる方法に革命をもたらしました。 データ...

Transformerの本質的欠陥を解決する:復旦大学らが提案した線形複雑性SOFT

[[437909]] Visual Transformer (ViT) は、パッチ単位の画像トーク...

人工知能の分野に参入する際に Python が好まれる言語なのはなぜですか?

実際、すべてのプログラミング言語の中で、Python は新しいお気に入りではありません。最初のバージ...

計算能力≠知恵! MIT教授の「意識の源」に関する新理論:人間の認知はコンピューティングとは何の関係もない

[[432064]]長い間、多くの学者は、ディープラーニングと人工ニューラルネットワークのインスピレ...

ディープラーニングで知っておくべき活性化関数トップ10

みなさんこんにちは、ピーターです〜最近、reddit で非常に鮮明な mó xìng の写真を見まし...

史上最も完全な自動運転ポジションの紹介

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ヴィンセントの3Dモデルが大躍進しました! MVDreamは、超リアルな3Dモデルを一文で生成します

すごいですね!数語を入力するだけで、美しく高品質な 3D モデルを作成できるようになりました。ちょう...

インテリジェント衛生の開発が加速しており、衛生ロボットは応用の「先駆者」となっている。

環境保護の重要な部分として、都市環境衛生はますます重視されています。衛生産業をうまく発展させ、衛生業...

ルカン、アンドリュー・ン、その他370人以上が共同書簡に署名:AIの厳格な管理は危険、オープン化がその解毒剤

近年、AIをどのように監督するかについての議論はますます白熱しており、有力者の意見も大きく異なってい...

「AI+」が世界を変える!さまざまな分野における 5 つの主要な AI トレンド

人工知能は現代世界で最も注目され、最も議論されているトピックであり、20年後には人々の世界観を変える...

...

...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...