猫とチャットできるようになりました！生成型AIがもたらす包括的な革命：5年以内に初の動物言語を解読

ソロモンが動物とコミュニケーションをとることができたのは、魔法のアイテムを持っていたからではなく、観察力に優れていたからである。

--コンラート・ローレンツ『ソロモン王の指輪』

『ライオンキング』や『ズートピア』などの動物を中心とした作品では、作者は登場人物を擬人化し、人間の思考やコミュニケーション方法を使ってストーリーを展開させることが多い。

しかし、こうした行為は認知的不協和を引き起こすこともあります。私たちは動物とコミュニケーションをとるとき、自分の考えや偏見を動物に投影してしまうことがあります。たとえば、「子羊がひざまずいて乳を飲む」というのは、感謝や親孝行とは関係なく、羊の胃の特殊な構造によるものです。しかし、人間は子羊の行動に自分自身を投影してしまうのです。

従来の動物認知研究は主に語彙の構築に焦点を当てていますが、「水」、「飲み物」、「乾燥」などの概念は水生生物の世界には存在しないか意味をなさない可能性があり、動物のコミュニケーションと人間の概念の間には対応がありません。また、動物間のコミュニケーションは必ずしも発声を通じて行われるわけではなく、身振り、一連の動作、または皮膚の質感の変化も含まれます。

理論上、機械学習モデルは、単語間の緩やかな相関関係を要約することに関しては人間よりも優れています。ニューラルネットワークの入力では、入力データの性質について何の仮定も行いません。特定のパターンが頻繁に出現する限り、動物のコミュニケーションに含まれる情報を発見することが可能です。

ニューヨーク市立大学、カリフォルニア大学バークレー校、MIT、ハーバード大学、Google Research、ナショナルジオグラフィックなどの研究機関が立ち上げた鯨類翻訳イニシアチブ (CETI) は、自然言語処理システムを使用してマッコウクジラの膨大なデータを分析し、将来的には野生のマッコウクジラと直接コミュニケーションを取ることを計画しています。

アザ・ラスキン氏らが共同設立した Earth Species Project (ESP) は、生物音響データに対する機械学習アルゴリズムのパフォーマンスを測定できる初の動物発声ベンチマーク BEANS をオープンソース化しました。また、信号の検出や分類など、さまざまなタスクに使用できる初の動物発声基本モデル AVES も開発しました。

生成 AI が進歩するにつれ、いつの日か動物のコミュニケーションの背後にある真の意味を解明できるようになるかもしれません。

複雑な動物界

1974年、哲学者トーマス・ネーゲルは「コウモリであることはどのようなことか？」という画期的な論文を発表しました。（コウモリになるとはどういうことか？）という本の中で、彼はコウモリの生活は人間のそれとは非常に異なっているため、人間はこの質問の答えを決して知ることはできないかもしれないと考えています。

私たちの世界に対する理解は人間の概念によって形作られており、コウモリがどのようなものかを知る唯一の方法は、コウモリになり、コウモリの概念を持つことです。

しかし、コウモリは高い場所に生息し、エコーロケーションなどを通じて上下の概念が逆転しているなど、コウモリの思考方法についてはある程度推測することはできますが、コウモリの生活経験を知ることはできません。

仮にライオンが話すことができたとしても、人間の脳はライオンの言語で伝えられる感情や概念に共感することができないため、私たちはそれを理解することはできないでしょう。 ——ルートヴィヒ・ヴィトゲンシュタイン

しかし、すべての動物が人間と違う考え方をするわけではありません。心理的には、人間はタコやイカよりも他の霊長類との共通点が多いです。チンパンジーとの最後の共通祖先は600万年から800万年前に生息していましたが、タコとの最後の共通祖先は約6億年前の先カンブリア時代の海に生息していました。

チンパンジーは、教えられた後、人間の手話を学び、複雑な人間の命令を理解し、キーボードの記号を使用してコミュニケーションをとることさえできますが、冒頭で述べたように、私たちはチンパンジーの行動について過度に擬人化して理解している可能性もあります。

人間とより関係の遠い種がどのようにコミュニケーションをとるかを理解するのはより困難になります。ミツバチや一部の鳥は可視スペクトルの紫外線を見ることができ、コウモリ、イルカ、犬、猫は超音波を聞くことができ、それぞれの種が独自の特徴を持っているからです。

AIで動物を理解する

地球種プロジェクトのコンピューター科学者、ブリット・セルヴィテル氏は、人類初の非言語の解読に取り組んでおり、5年から10年以内に可能になるかもしれないと語る。

動物の言語の分野では、研究者が過去数十年にわたって豊富な知識を蓄積してきたものの、人間の言語と動物の言語を翻訳できる「ロゼッタストーン」はこの世に存在せず、「動物の言語」を分類するためのゴールドスタンダードも存在しません。

基本的に、人工知能はデータ駆動型のツールであり、事前トレーニング済みの言語モデルは、大量のデータを通じて教師なし方式でデータの内部表現を学習できます。

ChatGPTの強力なパフォーマンスから判断すると、生成AI技術は人間の概念を適用するのではなく、独自の内部表現方法を持っている可能性があるため、研究者はAI技術を利用してデータを分析し、動物にとって意味のある用語を取得し始めました。

「Species on Earth」プロジェクトでは、野生または飼育下の動物の音声、動作、ビデオの形でデータが収集され、動物が当時どのような状況で何をしていたかについての生物学者の注釈が付けられます。

モノのインターネットが成熟するにつれ、安価で信頼性の高い録音デバイス（マイクやバイオロガーなど）を野生の動物に取り付けることがますます容易になり、AI ツールで整理・分析してデータの意味を発見できる大量のデータが提供され、その後、生成手法を使用してテストされ、最終的に動物の鳴き声を再現して双方向のコミュニケーションが可能になります。

動物の音のベンチマーク BEANS

生物音響学の分野では、機械学習技術をうまく応用するには、特定のタスクに関する高品質のデータセットを慎重にキュレーションする必要がありますが、これまでは、機械学習技術のパフォーマンスを制御された標準化された方法で測定し、新しく提案された技術を既存の技術と比較するための、複数のタスクと種を網羅した公開ベンチマークがありませんでした。

論文リンク: https://arxiv.org/pdf/2210.12300.pdf

データリンク: https://github.com/earthspecies/beans

BEANS (the BEnchmark of ANimal Sounds) は、バイオ音響学の 2 つの一般的なタスクである分類と検出を含む、バイオ音響学の分野における機械学習アルゴリズムのパフォーマンスを測定するために特別に設計されたバイオ音響学タスクと公開データセットのコレクションです。

BEANS には、鳥類、陸生および海洋哺乳類、尾のない両生類、昆虫など、複数の種をカバーする 12 のデータセットが含まれています。

この論文では、データセットに加えて、タスクパフォーマンスのベースラインとして、一連の標準的な機械学習手法のパフォーマンスも提示しています。

ベンチマークとベースラインのコードは両方ともオープンソース化されており、研究者たちは、BEANS が機械学習ベースの生物音響研究のための新しい標準データセットを確立できることを期待しています。

動物音声モデル AVES

生物音響学の分野では、適切にラベル付けされたトレーニングデータが不足しているため、この分野で教師あり方式でトレーニングされた大規模なニューラルネットワークモデルの使用が大きく妨げられています。

大量のラベルなし音声データを活用するために、研究者らは、動物の発声をエンコードするために使用できる自己教師ありのトランスフォーマーベースの音声表現モデルである AVES (Animal Vocalization Encoder based on Self-Supervision) を提案しました。

論文リンク: https://arxiv.org/pdf/2210.14493.pdf

モデルリンク: https://github.com/earthspecies/aves

研究者らは、さまざまなラベルなしオーディオデータセットのセットで AVES モデルを事前トレーニングし、下流の生物音響タスク用にモデルを微調整しました。

分類および検出タスクに関する包括的な実験により、AVES はすべての強力なベースライン、さらには注釈付きオーディオ分類データセットでトレーニングされた教師ありトップラインモデルよりも優れていることが示されました。

実験結果では、下流のタスクに関連する小さなトレーニングサブセットを慎重に設計することが、高品質のオーディオ表現モデルをトレーニングする効果的な方法であることも示されています。

倫理的問題

1970年代に西洋で初めてクジラの歌が発見され、深海クジラの捕獲が禁止され、環境保護庁が設立された。

Species on Earth プロジェクトの技術ロードマップが進歩するにつれ、私たちは周囲の生命についてより多くを学び、より多くのデータを収集し、新しいベンチマークと基礎モデルを開発して、この青い惑星をよりよく保護できるようになります。

ラスキン氏は、今後 12 ～ 36 か月以内に、チームは動物とコミュニケーションできるようになると考えています。たとえば、クジラやカラスと区別がつかない方法で会話できる人工のクジラやカラスを作るなどです。ただし、重要な点は、会話をさらに進めるためには、モデルが何を言っているのか理解する必要もあるということです。

ラスキンチームは、これらの AI 手法を責任を持って使用する方法についても議論しており、現在、狩猟や採餌、交尾の妨害、動物へのエラーの送信などの潜在的なリスクが技術ロードマップで指摘されているため、あらゆるテストで AI 手法を準備することを要求する規制を設けています。

人類が音を使って話したりコミュニケーションをとったりする方法を学んだのは10万年から30万年前のことですが、クジラやイルカは3400万年もの間、音を使って文化や歌を伝えてきました。

AI音声がクジラの群れの間でランダムに送信された場合、3400万年にわたる文化に損害を与える可能性があります。

そのため、Earth Species Project におけるこれまでの作業の多くは、データ収集と、将来の進歩を推進する基盤、ベンチマーク、基礎モデルの作成に費やされてきました。これは、世界中の企業や組織が AI や機械学習を使って日々行っていることと似ていますが、規模がはるかに大きいだけです。

AI が動物が何を言っているかを理解するのに役立てられるのであれば、AI を使用する私たちの能力の限界は何でしょうか?

人工知能が動物を理解するのに役立つなら、人間について何を教えてくれるのでしょうか?

ラスキン氏とザカリアン氏は、動物の言語の翻訳が、クジラの歌の最初の発見や1990年の「淡い青い点」の写真のように、世界史における転換点の一つとなり、世界に対する私たちの見方や理解を変えた瞬間となることを期待している。

<<: Github が Octoverse オープンソースレポートを公開しました!インドは米国を抜いて最大の開発者コミュニティとなり、生成AIは248％成長し、CopilotはGitHubを再編

>>: 1 分で新しい GPT が作成されます。カスタマイズされたGPTは3日以内に爆発的に普及し、理想のボーイフレンドや科学研究ツールがインターネット上に溢れかえった