MITとGoogle BrainはAIを使って「現代のロゼッタストーン」として知られる失われた古代の文書を解読する

MITとGoogle BrainはAIを使って「現代のロゼッタストーン」として知られる失われた古代の文書を解読する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

かつて栄華を誇った古代文明の多くは、果てしない塵の下に埋もれており、これらの場所で何が起こったのかを私たちは今やはっきりと知ることができません。

この歴史を理解する最良の方法は、書かれた記録を見つけることです。しかし、考古学者は文字が記録された石板を発掘することができますが、現代人にはこれらの古代の文字の意味を理解することができず、言語学者が推測するのに多くの時間がかかります。

現在、MIT CSAILとGoogle Brainの研究者らが機械学習を利用してウガリット語線文字Bを解読する取り組みを開始した。

[[270013]]

△ ウガリット宮殿

ウガリット語はセム語族に属する楔形文字です。文字通りの意味から、それは今日の地中海沿岸のシリアにあったウガリットと呼ばれる文明によって使われた言語であることがわかります。それは紀元前6000年頃に初めて現れ、紀元前1190年頃に消滅しました。

[[270014]]

ウガリット語

線文字B は、人類によってまだ解読されていない線文字 A から発展したものです。主にクレタ島とギリシャ南部で紀元前 1500 年から紀元前 1200 年まで生き残りました。ギリシャ語の古代の書き言葉です。

[[270015]]

△ 線状B

研究者たちは、同じ言語ファミリー内の異なる言語間のつながりを活用し、機械学習の手法を使用してこれら2つの失われた言語を解読しました。これは古代言語を解読するための新しい方法であり、ロマンス語の言語研究にも大きな影響と改善をもたらすでしょう。

この方法は多くの人を驚かせました。

まるで現代のロゼッタストーンのようです!

追記:ロゼッタストーンは、同じ内容が 3 つの言語で書かれた石板で、言語学者が古代のテキストを理解するのに役立ちます。

まずは動物や植物の言語を解読し、新しい世界への扉を発見したいと思っています。

人間の言語は常にコミュニケーションをとる

この研究の中心的な方法は、人間の言語の類似性を利用することです。

たとえば、ヨーロッパの言語間の類似点を紹介する際に、Zhihu ユーザーの @拉队短 は次の例を挙げました。

文「6月下旬の湿気の多い暗い夏の日でした。」

6月末の湿気の多い、どんよりとした夏の日でした。

デンマーク語:もし満足していないなら、この夏にそれをすることはまだできます。

スウェーデン語: 「また会えるのが待ちきれません。」

ノルウェー語: とても疲れているけど、私はまだ若いです。

アイスランド語: Það var rakur、grár sumardagur í lok júní。

見て、似ていますね。何しろ、インド・ヨーロッパ語族のゲルマン語族に属しています。単語の分布や文章の構造も非常に似ています。1つの言語を理解できれば、それと関連が深い別の言語を大まかに推測することができます。

モデルトレーニング

これら 2 つのスクリプトを解読するために、研究者は文字ベースの seq2seq モデルを提案しました。

このモデルは、主にユニバーサル文字埋め込み、残差接続、単調順列正規化で構成されています。

そのうち、線文字Bの文字はギリシャ語に対応している必要があります。

そして、ニューラル復号化アルゴリズムの助けを借りて、異なる言語特性を持つ複数の言語で強力なパフォーマンスを提供します。

理解できる言語と理解できない言語

アルゴリズムモデルに基づくと、必要なコーパスには、解読対象のウガリット語と線文字Bだけでなく、今日の人間が理解できる言語もいくつか含まれています。

研究チームは、相同性をテストする必要があるイタリア語、スペイン語、ポルトガル語の 3 つの言語の相同音声転写を含むロマンス語のデータベースを選択しました。

したがって、データセットでは上記を使用します。シンボルは言語の文字を指し、トークンは言語学における単語に似ています。

正確さ

実行結果は非常に良好です。ウガリット語のテキストは、ノイズのない条件下では既存の方法よりも 3.1% 優れており、ノイズのある条件下では現在のベイズ法よりも 5.5% 優れています。

LinearB は、ノイズのない条件で 84.7% の精度を達成し、より困難な LinearB 名データセットでは 67.3% の精度を達成します。

ロマンス語の同族語認識タスクでは、スペイン語で精度が 3.4%、ポルトガル語で精度が 1.6% 向上しました。

線文字Bの祖先である線文字Aは、まだ人類によって解読されておらず、考古学の聖杯として称賛されています。

将来、この研究が成功すれば、3 つのロマンス語のデータベースを使用するのと同じように、機械を使用して他の既知の人間の言語を直接ブルート フォース クラッキングすることが可能となるかもしれません。

頭を悩ませている言語学者は、他のことに集中して取り組むことができます。

著者について

[[270018]]

この研究の第一著者である Jiaming Luo 氏は現在、MIT CSAIL で NLP 研究を専門に博士号取得を目指しています。同氏は以前、北京大学で感情分析に関する研究も行っていました。

[[270019]]

ルオ氏の指導教官であるレジーナ・バルジレイ氏は、この研究の3人目の著者です。彼女はMIT CSAILの教授であり、2017年にNLPの研究でマッカーサー・グラントを受賞しました。彼女はNLPに加えて、化学と腫瘍学におけるディープラーニングの応用も研究しています。

ポータル

紙:

最小コストフローによるニューラル解読:ウガリット文字から線文字Bまで

ジアミン・ルオ、ユアン・カオ、レジーナ・バルジレイ

https://arxiv.org/abs/1906.06718

コードとデータセット:

https://github.com/j-luo93/ニューロデシファー

<<:  IDC: 企業の人工知能プロジェクトの半数が完全に失敗し、AI導入の道のりは困難

>>:  2019 年に注目すべき 10 社のクールなロボット スタートアップ

ブログ    

推薦する

ChatGLM-6Bを最適化するにはどうすればいいですか?たった 1 行のコード | 最も「流行」のモデル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

マスク氏:ロボットが雇用を奪い、ユニバーサル・ベーシック・インカムが必須に

億万長者のイーロン・マスク氏は最近、一連のツイートで、ロボットが人間の仕事を奪うなら、政府による普遍...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

OpenAI 宮殿ドラマが終わったばかりですが、すぐにまた別の騒動が勃発しました。ロイター通信は、ア...

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

8月11日はHuawei Developer Conferenceの3日目であり、カンファレンスの議...

天津市が顔認証訴訟で勝利、コミュニティが顔認証を唯一のアクセス手段として使用することは違法と判断

天津の不動産管理会社は、コミュニティへの出入りの唯一の方法として顔認証を使用していたとして住民から訴...

...

世界最強のモデル クロード3号が物理・化学を覆す!博士課程の1年間の実験の結果が2時間で解読され、ネットユーザーは「科学的研究はもう存在しない」と叫んだ。

クロード3号は今も奇跡を起こし続けています。公開からわずか数日後、ますます多くの博士号取得者が、未発...

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

[[227402]]人工知能が急成長を遂げている現在、AI人材の不足は中国だけでなく、世界全体が直...

...

Zooxロボットタクシーが半プライベートルートでテストを開始

Zooxの共同創業者兼CTOのジェシー・レビンソン氏によると、同社は数十台のカスタム電動ロボットタク...

GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

Microsoft の Copilot は、世界で最も強力な生産性向上ツールの 1 つと言われていま...

危険信号:Google AIはマスクを着用した女性を口をテープで塞いでいる女性と認識

FuninUSA によれば、Microsoft、Google、IBM のビジョン システムが現実世界...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...