Google mBERT の秘密を解明: ディープラーニングは人間の言語をどのように処理するのか?

[[384615]]

言語機能を備えたディープラーニングシステムは、人々の生活の中で広く利用されてきました。これらのシステムの一部は、Google がリリースした特定のディープラーニングモデルである Multilingual BERT (mBERT) を使用しています。

mBERT モデルは、約 100 の言語を同時にトレーニングできます。この多言語トレーニングにより、モデルは、ある言語から別の言語へのテキストの翻訳など、さまざまな言語タスクを実行できるようになります。

mBERT モデルは多くの言語タスクで優れたパフォーマンスを発揮することがわかっていますが、 mBERT モデルがどのようにテキストを作成し、予測を行うかについてはほとんどわかっていません。

この目的のため、スタンフォード大学、カリフォルニア大学アーバイン校、カリフォルニア大学サンタバーバラ校の研究者らが共同で新たな研究を開始し、mBERT モデルに基づく技術がどのように機能し、文法的特徴がどのように作成されるかをより深く理解しようとしています。

関連する研究結果は、「Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT」というタイトルでプレプリントウェブサイトarXivに掲載されています。この論文は、一般的に使用されているこれらのモデルの基礎と、さまざまなタスクを実行する際にそれらがどのように言語を分析するかについて貴重な情報を提供します。

謎のmBERTモデル

過去数十年にわたり、研究者たちはさまざまなタスクを実行できるディープニューラルネットワークに基づくモデルを開発してきました。これらのテクノロジの一部は、複数の言語で一貫したテキストを処理および生成し、テキストを翻訳し、テキストに関する質問に答え、ニュース記事やその他のオンラインコンテンツの要約を作成できるように特別に設計されています。

代表的なものとしては、Siri、Alexa、Bixby、Google Assistant、Cortana などのアプリケーションがあり、リアルタイム翻訳やテキスト分析に大きな利便性を提供します。

これらのアプリケーションのほとんどは、Google がリリースした mBERT モデルを使用しており、ユーザーは複数の言語 (英語、スペイン語、フランス語、バスク語、インドネシア語など) で mBERT ベースのシステムと対話できます。

mBERT のようなモデルは非常に強力ですが、事前トレーニング済みのディープラーニングモデルとは異なり、実際に含まれた情報は作成者にとっても明らかではありません。

これは、これらのモデルがプログラムされるのではなく、トレーニングされるからです。したがって、 mBERT モデルの動作原理を調査することは、多くのユーザーにとって関心事となっています。 mBERT モデルが言語をエンコードする方法を理解することは、人間が言語を処理する方法を理解しようとするのとそれほど変わりません。

この研究の主な目的は、mBERT ベクトルモデルに人間の言語とその構造に関するより深い情報が含まれているかどうかを判断することでした。より具体的には、数十年にわたる言語研究によって言語の分析に有用であると特定された一般化を、これらのモデルが自動的に発見できるかどうかを調べたかったのです。

mBERTモデルの理解に向けて

基本的に、mBERT モデルはテキストを、それぞれが数千の数字を含む一連のベクトルとして表現します。各ベクトルは単語に対応し、単語間の関係は高次元空間内の幾何学的関係としてエンコードされます。

「これらのモデルは人間の言語処理が非常に優れているため、これらの数値ベクトルが言語知識を表しているに違いないことがわかります」と、カリフォルニア大学サンタバーバラ校の言語学者で、この研究を率いた上級研究者の一人であるカイル・マホウォルド氏は述べた。「しかし、この情報はどのようにコード化されているのでしょうか。また、人間の脳内で知識が表現される方法とどのように似ているのでしょうか。私たちの研究は、言語の深層ニューラルモデルが言語情報をどのように表現し、使用するかを理解するための取り組みの一環です。」

「今は計算言語学に取り組むのに特にエキサイティングな時期です」と、カリフォルニア大学アーバイン校の言語科学者で、このプロジェクトのもう 1 人の上級顧問であるリチャード・フットレルは言います。「長年、言語学者は『意味空間』などの概念について語ってきました。これは、単語やフレーズの意味が空間内の点であるという考え方ですが、すべて少し漠然としていて印象主義的でした。現在、これらの理論は驚くほど正確になっています。単語の意味が空間内の点であるというモデルが実際に存在し、そのモデルは実際に人間の言語を理解していることを示唆するような動作をします。」

人間の言語を処理するために、mBERT モデルやその他のディープラーニングベースの言語分析フレームワークは、実際には、人間の言語を詳細に分析した後に言語学者が設計した理論を再発見した可能性があります。あるいは、まったく新しい理論や言語の規則に基づいて予測を行う可能性もあります。

マホワルド氏と彼の同僚は、両方の可能性をさらに探究したいと考えています。なぜなら、これらの計算技術がどのように言語をエンコードするかを理解することは、コンピューターサイエンスと言語学の両方の研究に重要な影響を与える可能性があるからです。

「これらのモデルがどのように機能するか、つまり、どのような情報を学習し、それをどのように使用するかを理解することは、科学的に興味深いだけでなく、使用して信頼できる AI システムを開発するためにも重要です」とフットレル氏は述べました。 「言語モデルが何を知っているかがわからなければ、それが正しいことを行うとは信じられません。つまり、その翻訳が正しいことや要約が正確であることは信じられませんし、人種や性別による偏見などの誤った情報を学習していないことも信じられません。」

mBERT モデルは通常、人間がコンパイルしたデータセットでトレーニングされるため、言語関連の問題を扱う際に人間が犯しがちな一般的な間違いが見つかる場合があります。学際的なチームによって実施されたこの研究は、AIツールが言語を分析する際に犯す間違いやその他のエラーの一部を明らかにするのに役立つ可能性がある。

異なる言語の主語と目的語を識別する

mBERT モデルをより深く理解するために、研究者たちは、mBERT モデルが異なる言語の主語と目的語の違いをどのように表現するかを研究することにしました。

「文章を mBERT に入力すると、各単語はベクトル表現されます」とマホワルド氏は言います。「私たちは mBERT よりはるかに小さい新しいモデルを構築し、次の質問をしました。mBERTから単語ベクトルを取得した場合、モデルはそれが主語か目的語かを判断できますか? 言い換えると、モデルは単語「犬」が文章の主語 (「犬が猫を追いかける」) なのか、それとも単語「猫が犬を追いかける」なのか、判断できるでしょうか。」

すべての言語が主語と目的語の関係を記述し、同様の方法で記述していると思われるかもしれません。しかし、実際には言語によって主語と目的語の構成に大きな違いがあります。

スタンフォード大学のコンピューターサイエンスの大学院生で、論文の著者の一人であるイザベル・パパディミトリウ氏とその同僚は、これらの違いを利用して、mBERT モデルが文章を処理する仕組みをより深く理解しようとしました。

「英語を使う場合、『犬が猫を追いかけた』の『犬』という単語は、『犬が逃げた』の『犬』という単語と同じ役割を果たしているように思われます」とパパディミトリウ氏は言う。「前者の場合、動詞には目的語である『猫』があり、後者の場合、ありません。しかし、どちらの場合も、『犬』が主語であり、行為者であり、行為者であり、最初の文では、『猫』が目的語であり、行われていることです。しかし、これはすべての言語に当てはまるわけではありません。」

英語やヨーロッパ人が話すほとんどの言語には、文中の主語と目的語を明確に区別する主格整列と呼ばれる構造があります。

ただし、バスク語、ヒンディー語、グルジア語などの言語では、代名詞の整列形式が使用されます。代名詞の配置では、目的語のない文では、主語は目的語に使用される文法構造に従うという意味で目的語として扱われます。たとえば、「犬は走っている」という文の中の「犬」という単語は、ある意味では主語と目的語の両方です。

「私たちの研究の主な目的は、mBERT がアラインメント、代名詞、主語の概念を理解しているかどうかをテストすることでした」と Papadimitriou 氏は言います。「言い換えれば、私たちは次のように尋ねました。mBERT は、動詞の主語と目的語を構成するもの、およびさまざまな言語が空間を主語と目的語に分割する方法を深く理解しているでしょうか。約 100 の言語で同時にトレーニングされた mBERT は、興味深い言語的方法でこれらの違いを認識していることがわかりました。」

機械は人間の言語を理解できる

これらの発見は、mBERT モデルや言語分析のための他の計算モデルが文法情報をどのように表現するかについて、新たな興味深い洞察を提供します。興味深いことに、研究者が研究した mBERT のベクトル表現に基づく検査モデルも、人間が言語を処理する際に発生するエラーと一致する可能性のある一貫したエラーを発生させることが判明しました。

「言語を問わず、主語が無生物名詞の場合、私たちのモデルは主語を誤って主語として参照する可能性が高くなります。つまり、名詞は人間でも動物でもないということです」とパパディミトリウ氏は言います。「これは、文中の登場人物のほとんどが、人間や動物などの生物名詞である傾向があるためです。実際、一部の言語学者は、主観性は実際にはスペクトルであると主張しています。主語が人間であることは、主語が動物であることよりも「主観的」であり、動物であることは、主語が人間でも動物でもないよりも「主観的」です。これはまさに、mBERT モデルで発見したことです。」

全体として、この研究は、mBERT モデルが文中の主語と目的語を識別し、既存の言語文献と一致する方法でそれらの関係を表現できることを示しています。

将来、この重要な発見は、コンピューター科学者がディープラーニング技術が人間の言語をどのように処理するかをより深く理解し、パフォーマンスをさらに向上させるのに役立つ可能性があります。

「私たちは現在、言語のディープニューラルモデルが主語や目的語などの言語カテゴリを連続ベクトル空間で表現する方法を引き続き調査したいと考えています」とマホワルド氏は述べました。「具体的には、主語や目的語などの役割を個別のカテゴリとしてではなく、一連の機能として記述しようとする言語学の研究は、これらのモデルとその動作について私たちがどう考えるかを伝えるのに役立つと考えています。」

<<: 次世代のインターネット技術 - ディープラーニング

>>: ベンジオとヒントンの絶え間ない探求：ディープラーニングアルゴリズムが脳の学習方法を明らかにする