Google が 11 の言語をカバーする TyDi QA コーパスをリリース

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]

多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語をカバーする質問応答コーパス TyDi QA をリリースしました。

質問応答テクノロジーは、「イカ墨は食べても安全か?」といった日常生活における問題の解決に役立ちます。ユーザーは音声アシスタントに質問したり、検索キーワードを入力して回答を期待することができます。昨年、私たちは実際のユーザーのニーズを反映した課題を提供するために、英語版の Natural Questions Dataset を研究コミュニティにリリースしました。しかし、世界には何千もの異なる言語があり、その多くはセマンティクスの構築に非常に異なるアプローチを使用しています。たとえば、英語には 1 つのオブジェクト ("book") と複数のオブジェクト ("books") がありますが、アラビア語には、単数形 ("كتاب", kitab) または複数形 ("كتب", kutub) に加えて、2 つのオブジェクト ("كتابان", kitaban) を示す 3 番目の形式もあります。さらに、日本語などの一部の言語では、単語の間にスペースを使用しません。言語が意味を表現するさまざまな方法を理解できる機械学習システムを作成することは困難であり、そのようなシステムをトレーニングするには、適用されるさまざまな言語からのサンプルが必要です。

多言語の質問応答技術の研究を促進するために、本日、11 の異なる言語をカバーする質問応答コーパスである TyDi QA をリリースします。私たちの論文「TyDi QA: 類型的に多様な言語における情報探索型質問応答のベンチマーク」で説明されているように、私たちのコーパスは類型的多様性、つまり異なる言語は異なる構造的方法で意味を表現するという概念に触発されています。このコーパスでは類型的に互いに離れた言語のセットを選択したため、このデータセットで良好なパフォーマンスを発揮するモデルは、世界中の多数の言語に一般化されると期待しています。

多様な言語

TyDi QA には、11 の言語からの 200,000 を超える質問と回答のペアが含まれており、さまざまな言語現象とデータの課題を表しています。これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語など、ラテン文字以外のアルファベットを使用しています。アラビア語、フィンランド語、インドネシア語、スワヒリ語、ロシア語など、語の構成が非常に複雑な言語もあります。日本語では、次の 4 つのアルファベットが使用されます。

4色で表現されており、ハングル文字自体も組み合わせの強い字体になっています。言語も、英語やアラビア語のようにオンラインで利用できるデータが大量にあるものから、ベンガル語やスワヒリ語のようにデータがほとんどないものまで多岐にわたります。これらの課題に対処できるシステムは、多くの言語で成功すると期待しています。

実データの作成

研究コミュニティで使用された初期の QA データセットの多くは、まず人々に記事を提供し、次に記事で読​​んだ内容に基づいて質問を書くように依頼することによって作成されました。ただし、各質問に対する答えは書きながら確認できるため、この方法では答えと同じ単語が含まれる質問が作成されることがよくあります。その結果、このタイプのデータでトレーニングされた機械学習アルゴリズムは、単語の一致を優先し、ユーザーのニーズを満たすために必要なより微妙な回答を無視する傾向があります。

より自然なデータセットを構築するために、答えを知りたいがまだ答えを知らない人々からの質問を集めました。質問を促すために、私たちは人々にウィキペディアの興味深い一節を彼らの母国語で示しました。それから、私が示した内容では答えがわからず、実際に答えを知りたいと思う限り、どんな質問でも構いません。これは、道を歩いているときに、好奇心から何か興味深いものを見つけたときに質問が出てくるのと似ています。質問をするときには想像力を働かせるように奨励しています。たとえば、氷に関する記事を読むと、夏のアイスキャンディーを思い浮かべますか?素晴らしい!アイスキャンディーを発明したのは誰か尋ねます。重要なのは、質問が翻訳されたものではなく、その言語で直接書かれているため、多くの質問がコーパスの英語版にあるものと異なるということです。ベンガル語で質問があります。「সফেদা ফল খেতে কেমন?」(サポディラはどんな味がしますか?)サポディラって聞いたことありませんか?これは、サポジラが米国よりもインドで一般的だからかもしれません。

これらの質問ごとに、適切な言語で最適な一致する Wikipedia の記事を Google で検索し、質問者に記事内の回答を見つけて強調表示するように依頼しました。質問者が答えを見つけられなかった場合、質問と回答の間に興味深い相違が生じることは予想していましたが、世界中の言語における驚くほど幅広い言語現象と相まって、状況はさらに複雑であることがわかりました。

たとえば、フィンランド語では、質問と回答で「日」と「週」という単語が非常に異なって表現される興味深い例がいくつかあります。 Wikipedia の記事全体からこの回答文を正しく選択するには、システムがフィンランド語の単語 viikonpäivät、seitsenpäiväinen、viikko の関係を認識できる必要があります。

研究コミュニティとして共に進歩する

このデータセットが研究コミュニティの革新を推進し、世界中のユーザーにとってより便利な質問応答システムを生み出すことを願っています。コミュニティの進捗状況を追跡するために、参加者が機械学習システムの品質を評価できるリーダーボードを設置し、データセットを使用する質問応答システムもオープンソース化しました。リーダーボードを表示して詳細を確認するには、チャレンジの Web サイトにアクセスしてください。

著者について:

ジョナサン・クラークは、Google Research の研究科学者です。

<<:  Google Brainの主要研究:高速微分可能ソートアルゴリズム、桁違いに高速

>>:  過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

推薦する

JD.comの鄭志同氏:機械学習を使って何億もの商品データを最適化する方法

[51CTO.comより引用] 2017年7月21日から22日まで、51CTOが主催する人工知能をテ...

NLP入門: 中国語のルールベースの単語分割法を3つ教えます

自然言語理解において、トークンは独立して動作できる意味のある最小の言語コンポーネントです。単語の識別...

...

陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に

Chen Danqi のチームは、新しい LLMコンテキスト ウィンドウ拡張メソッドをリリースしまし...

...

MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

米国、人工知能に関する大統領令を発表

人工知能には大きな可能性があり、その可能性と危険性の両方を兼ね備えています。 AI を責任を持って使...

Go 言語アルゴリズムの美しさ - 高度なソート

[[415242]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

分析と AI に関する 6 つの警告すべき間違い

[[439096]] 2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値...

ChatGPT が作成した履歴書が人事部の心を動かし、彼は卒業後すぐに夢のオファーを獲得しました。

こんにちは、最近卒業した人が ChatGPT を使用してカバーレターを作成し、数分で履歴書のスクリー...

...

EUのドローン関連法は国内メーカーにとって恩恵か、それとも災いか?

ユーザーがドローンを操作する方法を規制する法律が来週の木曜日(1月7日)に施行される。この法律はノル...

AIとIoTテクノロジーがメンタルヘルス問題の解決に役立つ4つの方法

IoT テクノロジーは、精神疾患に苦しむ患者の健康状態を改善する専門家の支援を補完することができます...

GenAIの変革力は職場に知識をもたらします

GenAI は破壊的な力を持っていますが、どの程度破壊的なのでしょうか? 「大きなものになる」ことは...