ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。

写真のゴリラはカンジという名の42歳のボノボです。タッチスクリーンをタップしてゲームをプレイします。画面の中央をタップすると前進し、側面をタッチすると周囲を見回します。良い成績を収めた場合、研究者はピーナッツやその他のスナックなどの報酬を与える予定だ。

おそらく以前にいくつかのゲームをプレイしたことがあったため、Kanzi は画面の前に座るとすぐにその状態になり、数秒でキャラクターを操作して前進する方法を学びました。指定エリアまで到達できれば、画面上におやつの図柄が表示され、スタッフがそれに応じたおやつをあげてくれます。この報酬の仕組みにより、カンジはゲーム内での歩き方をすぐに学びました。

次のテストタスクは、ゲーム内のツール (画面上部のボタン) を使用して、いくつかのビルディングブロックを破壊することです。この操作は Kanzi がこれまでプレイしたどのゲームにも登場したことがないため、Kanzi にとっては少し難しいです。スタッフはカンジにヒントを与えるために、画面の上にあるボタンを指さし続けましたが、カンジはまだ理解できませんでした。

スタッフは絶望の中で、別の方法を試さざるを得なかった。カンジに人間のデモンストレーションを見せることだ。

カンジは注意深く見守っていて、ブロックが壊れるとおやつももらいました。そこでスタッフは、自分で試してみることにしました。

最後に、積み木まで歩いていくと、カンジは上部のボタンを見つけ、積み木を壊すことに成功し、スタッフから歓声が上がりました。

これら 2 つのタスクを終えた後、Kanzi は環境内のスナックを集めることとブロックを壊すことという 2 つの基本的なスキルを習得しました。 Kanzi の次の目標は、これらのスキルをまったく新しい環境で使用し、ネットワークの反対側にいる人間のプレイヤーにそれが本物であると納得させることです。

これに先立ち、カンジはスキルを強化するために特別に設計された洞窟環境に置かれました。カンジは、ブロックの壁を一つずつ突き破ることによってのみ、洞窟の端に到達できました。

モンスターを倒してレベルアップしながら、カンジは覚えたばかりの新しいスキルに慣れていきました。しかし、コーナーで行き詰まってしまうこともあります。その場合はスタッフに助けを求め、まっすぐに積み木の壁まで歩いていき、窮地を脱してレベルをクリアしていきます。

結局、ほとんど助けを借りずに、カンジは洞窟を通り抜けて、洞窟の端にたどり着きました。これはまた、Kanzi が人間のプレイヤーを混乱させる準備ができていることを意味します。

テスト中、人間のプレイヤーには特別なプレイヤーと一緒にゲームをプレイすることが伝えられました。もちろん、ゲーム内でのKanziの移動速度が遅い、操作方法が平均的なプレイヤーと異なるなど、いくつかの異常な動作にも気づきました。しかし、彼はゲームのパートナーがゴリラだとは思ってもいませんでした。真実が明らかになったとき、トミーの反応はショックと興奮が入り混じったものでした。

人間のプレイヤーとのこのテストは、スタッフによって「マルチプレイヤー」モードと呼ばれています。次に、彼らは Kanzi に、村、砂漠の寺院、ネザーポータルなど、「Minecraft」の他の環境タイプに挑戦するように依頼しました。カンジはゲームの最後まで勝ち進みました。

この動画は海外の動画サイトで大きな注目を集めました。ビデオプロデューサーであり YouTube ブロガーでもある ChrisDaCow の当初の意図は、人間に野生動物に注目し、これらの動物の興味深い側面を見るよう呼びかけることだった。

ビデオリンク: https://www.youtube.com/watch?v=UKpFoYqN9-0

しかし、AI 研究者の目には、これは単なる楽しみ以上のものである。彼らは知能に関連する何かを観察しました。

Nvidia の上級 AI 科学者である Jim Fan 氏は、AI に Minecraft のプレイ方法を教えたり、ゴリラに教えたりするための類似した手法が数多くあることに気づいたと述べています。

  • コンテキスト内強化学習: Kanzi がゲーム内でマークされたマイルストーンに到達すると、果物やピーナッツが報酬として与えられ、ゲーム内の指示に従う動機付けになります。
  • 人間によるフィードバックによる強化学習 (RLHF): Kanzi は言語を完全には理解していませんが、トレーナーが自分を応援しているのがわかり、時折歓声で応えます。これは彼が正しい方向に進んでいるという強いシグナルとなった。
  • 模倣学習: トレーナーは Kanzi にタスクのやり方をデモンストレーションで示し、たった 1 回のデモン​​ストレーションで Kanzi はその概念を理解しました。これは、報酬だけを使用するよりもはるかに効率的です。
  • レッスンの学習: 非常にシンプルな環境から始めて、徐々に Kanzi の制御スキルを教えました。最終的に、カンジは複雑な洞窟、迷路、そして冥界を進むことができるようになりました。

「ゴリラの視覚システムがいかに強力であるかにも驚きました。カンジは生まれてこのかたMinecraftを見たことがありませんでしたし、彼の先祖も見たことがなかったでしょう。しかし彼は、自然界とはまったく異なるMinecraftのテクスチャや物理特性にすぐに適応しました。このレベルの一般化は、現在最も強力な視覚モデルができることよりもはるかに優れています。私たちは再びモラベックのパラドックスに陥っています。つまり、私たちの最高のAIは言語理解においては人間のレベルに近いのですが、ピクセルの解析においては動物にはるかに遅れをとっているのです」とジム・ファンは語った。

モラベックのパラドックスは、人工知能とロボット工学の学者によって発見された常識に反する現象です。従来の想定に反して、推論などの人間特有の高レベルの知能能力には、ほとんど計算能力は必要ありません。しかし、無意識のスキルと直感には膨大な計算能力が必要です。この概念は、1980 年代にハンス・モラベック、ブルックス、マービン・ミンスキーらによって解説されました。モラベック氏は次のように書いている。「コンピューターにチェスの遊び方を大人と同じように教えるのは比較的簡単だが、1 歳児のように認識して行動するように教えるのは非常に困難、あるいは不可能だ。」

しかし、一部の人々はこれに疑問を呈し、Kanzi は報酬のためだけにプレイを続け、「何が起こっているのか全く知らなかった」ため、「Minecraft」のプレイ方法を実際には学んでいなかったと考えている。

これに対して、ある人がこう反論しました。「これは刺激反応学習、またはオペラント条件付けと呼ばれています。人間を含め、すべての動物が学習する基本的な方法の 1 つです。非常に理解しやすいです。これは学習を軽視しているのではなく、学習の本質なのです。」

この実験の興味深いところは、本当に衝撃的だということです。ChatGPT とゴリラが Minecraft をプレイできるようになった今、将来、脳コンピューター インターフェースがスムーズに開発されるとどうなるでしょうか?

<<:  GitHub のスター数が 16.9k に急上昇、MetaGPT はインターネット全体で人気に!

>>:  673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

ブログ    
ブログ    

推薦する

...

未来を受け入れる: AIと教育テクノロジーによる教育の変革

新しいテクノロジー、特に人工知能 (AI) の急速な台頭により、教育と指導は大きな変化の瀬戸際にあり...

コードを超高速で変更! GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる

いつもトラブルを起こしているAI分野の花形研究機関OpenAIが最近また別のことをしました。GPT-...

マッキンゼーのレポート: 2030 年までに 8 億人が機械に置き換えられ、約 1 億人の中国人が転職を余儀なくされる!

マッキンゼー・グローバル・インスティテュートは最近の報告書で、テクノロジーの進歩により、将来世界で約...

機械学習で不均衡なデータをどのように処理しますか?

上司から、利用可能なさまざまな測定値に基づいて製品に欠陥があるかどうかを予測するモデルを作成するよう...

...

ドローン基地局は被災地の通信復旧にどのように役立つのでしょうか?

災害時において、通信は途切れることのできない生命線です。 [[412620]] 7月21日、河南省の...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

Google、Facebook、Baiduはディープラーニングのフレームワークをめぐって競争している

[[226860]]タイトル画像提供:Visual China最近、海外の多くの企業で興味深い変化が...

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...

...

...

...

...