Google が 11 の言語をカバーする TyDi QA コーパスをリリース

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]

多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語をカバーする質問応答コーパス TyDi QA をリリースしました。

質問応答テクノロジーは、「イカ墨は食べても安全か?」といった日常生活における問題の解決に役立ちます。ユーザーは音声アシスタントに質問したり、検索キーワードを入力して回答を期待することができます。昨年、私たちは実際のユーザーのニーズを反映した課題を提供するために、英語版の Natural Questions Dataset を研究コミュニティにリリースしました。しかし、世界には何千もの異なる言語があり、その多くはセマンティクスの構築に非常に異なるアプローチを使用しています。たとえば、英語には 1 つのオブジェクト ("book") と複数のオブジェクト ("books") がありますが、アラビア語には、単数形 ("كتاب", kitab) または複数形 ("كتب", kutub) に加えて、2 つのオブジェクト ("كتابان", kitaban) を示す 3 番目の形式もあります。さらに、日本語などの一部の言語では、単語の間にスペースを使用しません。言語が意味を表現するさまざまな方法を理解できる機械学習システムを作成することは困難であり、そのようなシステムをトレーニングするには、適用されるさまざまな言語からのサンプルが必要です。

多言語の質問応答技術の研究を促進するために、本日、11 の異なる言語をカバーする質問応答コーパスである TyDi QA をリリースします。私たちの論文「TyDi QA: 類型的に多様な言語における情報探索型質問応答のベンチマーク」で説明されているように、私たちのコーパスは類型的多様性、つまり異なる言語は異なる構造的方法で意味を表現するという概念に触発されています。このコーパスでは類型的に互いに離れた言語のセットを選択したため、このデータセットで良好なパフォーマンスを発揮するモデルは、世界中の多数の言語に一般化されると期待しています。

多様な言語

TyDi QA には、11 の言語からの 200,000 を超える質問と回答のペアが含まれており、さまざまな言語現象とデータの課題を表しています。これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語など、ラテン文字以外のアルファベットを使用しています。アラビア語、フィンランド語、インドネシア語、スワヒリ語、ロシア語など、語の構成が非常に複雑な言語もあります。日本語では、次の 4 つのアルファベットが使用されます。

4色で表現されており、ハングル文字自体も組み合わせの強い字体になっています。言語も、英語やアラビア語のようにオンラインで利用できるデータが大量にあるものから、ベンガル語やスワヒリ語のようにデータがほとんどないものまで多岐にわたります。これらの課題に対処できるシステムは、多くの言語で成功すると期待しています。

実データの作成

研究コミュニティで使用された初期の QA データセットの多くは、まず人々に記事を提供し、次に記事で読​​んだ内容に基づいて質問を書くように依頼することによって作成されました。ただし、各質問に対する答えは書きながら確認できるため、この方法では答えと同じ単語が含まれる質問が作成されることがよくあります。その結果、このタイプのデータでトレーニングされた機械学習アルゴリズムは、単語の一致を優先し、ユーザーのニーズを満たすために必要なより微妙な回答を無視する傾向があります。

より自然なデータセットを構築するために、答えを知りたいがまだ答えを知らない人々からの質問を集めました。質問を促すために、私たちは人々にウィキペディアの興味深い一節を彼らの母国語で示しました。それから、私が示した内容では答えがわからず、実際に答えを知りたいと思う限り、どんな質問でも構いません。これは、道を歩いているときに、好奇心から何か興味深いものを見つけたときに質問が出てくるのと似ています。質問をするときには想像力を働かせるように奨励しています。たとえば、氷に関する記事を読むと、夏のアイスキャンディーを思い浮かべますか?素晴らしい!アイスキャンディーを発明したのは誰か尋ねます。重要なのは、質問が翻訳されたものではなく、その言語で直接書かれているため、多くの質問がコーパスの英語版にあるものと異なるということです。ベンガル語で質問があります。「সফেদা ফল খেতে কেমন?」(サポディラはどんな味がしますか?)サポディラって聞いたことありませんか?これは、サポジラが米国よりもインドで一般的だからかもしれません。

これらの質問ごとに、適切な言語で最適な一致する Wikipedia の記事を Google で検索し、質問者に記事内の回答を見つけて強調表示するように依頼しました。質問者が答えを見つけられなかった場合、質問と回答の間に興味深い相違が生じることは予想していましたが、世界中の言語における驚くほど幅広い言語現象と相まって、状況はさらに複雑であることがわかりました。

たとえば、フィンランド語では、質問と回答で「日」と「週」という単語が非常に異なって表現される興味深い例がいくつかあります。 Wikipedia の記事全体からこの回答文を正しく選択するには、システムがフィンランド語の単語 viikonpäivät、seitsenpäiväinen、viikko の関係を認識できる必要があります。

研究コミュニティとして共に進歩する

このデータセットが研究コミュニティの革新を推進し、世界中のユーザーにとってより便利な質問応答システムを生み出すことを願っています。コミュニティの進捗状況を追跡するために、参加者が機械学習システムの品質を評価できるリーダーボードを設置し、データセットを使用する質問応答システムもオープンソース化しました。リーダーボードを表示して詳細を確認するには、チャレンジの Web サイトにアクセスしてください。

著者について:

ジョナサン・クラークは、Google Research の研究科学者です。

<<:  Google Brainの主要研究:高速微分可能ソートアルゴリズム、桁違いに高速

>>:  過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

推薦する

Google は、フルスタックプログラミング言語をサポートし、すぐに使用でき、ワンクリックでデプロイできるブラウザ AI 開発環境 IDX をリリースしました。

アプリケーションをゼロから開発するというコンセプトは何ですか?これをルーブ・ゴールドバーグ・マシンの...

アマゾンのドローン配送部門の主要メンバーが目標未達成で辞任

アマゾンのドローン配送部門プライムエアで安全、飛行運用、規制業務を担当していたショーン・キャシディ氏...

自動運転におけるディープラーニングベースの予測と計画の融合手法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Google AI、眼球スキャンから心臓病リスクを予測可能

グーグルと、同じくアルファベットグループの健康関連子会社であるベリリー・ライフ・サイエンシズが共同で...

エンタープライズ ソフトウェア ベンダーのジェネレーティブ AI への取り組み

2023 年は生成 AI テクノロジーが爆発的に普及した年であり、ChatGPT などのツールが研究...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...

...

日本の首相、偽情報対策にAI生成ルールを発表へ

読売新聞によると、10月8日、岸田文雄首相は明日、京都で生成型AIの活用と規制ルールを発表する予定で...

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか?

2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...

RNN の理論から PyTorch まで

RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...

顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

8月8日、IT Homeは中国サイバースペース事務局から、顔認識技術の応用を標準化するため、「中華人...

ロボット革命はビジネス環境を変えている

今世紀の前半には、巨大な片腕の巨人のような産業用ロボットがロボット工学の分野を支配していました。産業...

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...

2019年のGAITCイベントが南京で開催され、世界のエリートがスマートシェアリングに注目

2017年3月、中国共産党中央委員会の政府活動報告に人工知能が記載され、人工知能は国家戦略となった。...

工業情報化部など8つの部門:地域人工知能データ処理センターの建設を検討

12月29日、工業情報化部、国家発展改革委員会、教育部、財政部、中国人民銀行、国家税務総局、金融監督...