MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

MITのコンピュータ科学および人工知能研究所(CSAIL)の研究者らは、歴史から長い間失われていた古代言語を言語学者が自動的に解読するのに役立つ可能性のある新しいコンピュータアルゴリズムを開発した。

当局は、このシステムは、言語と他の言語との関係についての詳細な知識を必要とせずに、絶滅した言語を自動的に解読できると述べた。また、このシステム自体が言語間の関係を判断できることも示され、イベリア語が実際にはバスク語とは無関係であることを示した最近の学術研究を確認するのにも使用できることが示された。

[[348785]]

CSAILは、最近の調査で、これまで存在していた言語のほとんどがもはや使われていないことが示されていると述べた。これらの絶滅した言語のうち数十は、「未解読」言語とも考えられています。これは、一般の人々が、テキストの意味を理解するのに十分な文法、語彙、構文の知識を持っていないことを意味します。

これらの「解読されていない」言語の研究は、学術的な好奇心からだけではありません。また、言語を理解しなければ、その言語を話す人々に関する膨大な知識を逃してしまうことにもなります。残念ながら、絶滅した言語のほとんどは記録がほとんど残っていないため、科学者がGoogle翻訳などの機械翻訳ツールやAIアルゴリズムを使用して解読することは不可能です。

そのため、CSAILチームの新しいアルゴリズムの最終的な目標は、言語学者が数十年にわたって理解するのが困難だった失われた言語を、わずか数千語を使って解読することです。

MITのレジーナ・バルジレイ教授が率いるこの研究は、歴史言語学の洞察に基づくいくつかの原則に依存している。たとえば、言語は一般的に、特定の予測可能な方法でのみ進化します。具体的には、特定の言語では音節全体が追加または削除されることはほとんどありませんが、類似した発音の置換は発生する可能性があります。たとえば、母国語で「p」の音を持つ単語は、その派生語では「b」になる可能性がありますが、明らかな発音の違いにより「k」になる可能性は低くなります。

これらの原則とその他の言語的制約を取り入れることで、Barzilay 氏と MIT 博士課程の学生 Jiaming Luo 氏は、可能な変換の巨大な空間と入力内の誘導信号の不足を処理できる復号化アルゴリズムを開発しました。このアルゴリズムは、対応するベクトル間の距離が異なる発音の違いを反映する多次元空間に言語音を埋め込むことを学習します。この設計により、言語のバリエーションの関連パターンを捕捉し、それを計算上の制約として表現することが可能になります。結果として得られるモデルは、古代言語の単語を分割し、関連する言語の対応する単語にマッピングできます。

このプロジェクトは、バルジレイ氏とルオ氏が昨年執筆した、絶滅したウガリット語と線文字Bの解読に関する論文に基づいている。線文字Bの解読にはこれまで人類が数十年を要していた。しかし、2つのプロジェクトの重要な違いは、これらの言語がそれぞれヘブライ語とギリシャ語の初期の形態に関連していることをチームがすでに知っていたことです。

新しいアルゴリズムは、言語解読における最大の課題の 1 つである言語間の関係性を推測することができます。このアルゴリズムは 2 つの言語間の類似性を評価でき、既知の言語でテストすると、その言語がどの言語ファミリーに属するかを正確に識別することもできます。それだけでなく、アルゴリズムによって生成されたモデルは、古代言語の単語を細分化し、それらを「関連」言語の対応する単語に 1 つずつマッピングすることができます。

今後の研究で、研究チームは、テキストを既知の言語の関連語と関連付けるという「同族語ベースの解読」と呼ばれるアプローチを超えて、研究範囲を広げたいと考えている。 「例えば、テキストに記載されているすべての人物や場所に関する情報を特定し、既知の歴史的証拠に基づいてさらに調査することができます」と彼は語った。「これらのエンティティ認識方法は現在、さまざまなテキスト処理アプリケーションで高い精度で広く使用されています。しかし、重要な研究上の疑問は、このタスクが古代言語のトレーニングデータなしで実行可能かどうかということです。」

この記事はOSCHINAから転載したものです。

この記事のタイトル: MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

記事URL: https://www.oschina.net/news/119481/mit-translating-lost-languages-machine-learning

<<:  スタンフォード大学の教授が、専門家以外の人向けにAIの核となる概念を1ページで定義

>>:  AIの次の目的地:洗練された生活シナリオのインテリジェント時代

ブログ    
ブログ    

推薦する

製造および産業環境監視アプリケーション向けの AI 搭載マシンビジョン

従来の産業および製造現場では、作業者の安全の監視、オペレーターの効率性の向上、品質検査の改善はすべて...

...

AI とブロックチェーンは 2020 年にモバイル アプリ業界にどのような革命を起こすのでしょうか?

新たな10年を迎えるにあたり、人々は過去10年間の経験と教訓を活用する必要があります。モバイル アプ...

...

WebGPT について簡単に説明してください。学びましたか?

原作者: エベネザー・ドン元のアドレス: https://blog.logrocket.com/in...

...

金融AIの実装は難しいですか?ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

金融分野で AI を適切に導入するには、単に時間や資金を最も多く投資すればよいという問題ではありませ...

6つのトラックと10のテクノロジー: インテリジェントボディと3D生成がAIを活性化し、空間コンピューティングがターミナル変革を切り開く

2000年前に生きていた古代人が1000年前に戻ったとしても、適応できるものは多くないかもしれません...

AIとDevOps: 効率的なソフトウェア配信のための完璧な組み合わせ

AI時代では、DevOpsとAIが共有結合します。 AI はビジネス ニーズに基づいてソフトウェアの...

TensorFlow を使い始めるための重要なポイントをここにまとめました。まだ怠ける理由がありますか?

この記事の著者である Steven Dufresne は、初心者が TensorFlow を学習する...

ファーウェイの天才少年Zhihuiは、かわいいロボットを自作し、5時間でオープンソース化し、GitHubで317個のスターを獲得した。

前回ブドウに縫い目をつけた「完全自社開発」のアイアンマンロボットアーム「ダミー」を覚えていますか? ...

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、...

最新の! 2018年中国プログラマーの給与と生活に関する調査レポート

中国インターネット情報センター(CNNIC)が発表した第41回中国インターネット発展統計報告によると...

マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!

今日の情報化時代において、個人の身元を正確に識別し、情報セキュリティを保護する方法は、あらゆる分野の...

人工知能の潜在能力を活かすための深層開発

[[244225]]人工知能は現実的な科学技術の力であり、需要、デジタル経済、高品質の開発に焦点を当...