びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI は最終的に Minecraft でダイヤモンドのツルハシを作ることを学習しました。

熱心なゲーマーであれば、このプロセス全体を完了するのに少なくとも 20 分、合計 24,000 回の操作が必要になります。

これは単純なことのように思えますが、AIにとっては非常に難しいことです。

7歳の子供でも10分で習得できる

最も単純な木製のツルハシの場合、人間のプレイヤーがプロセスを一から学ぶのはそれほど難しくありません。

オタクは1本のビデオを使って3分以内に他のオタクに教えることができます。

デモビデオの長さは2分52秒です。

ただし、ダイヤモンドのツルハシの製作ははるかに複雑です。

それでも、7歳の子供は、たった10分のデモンストレーションビデオを見るだけでそれを学ぶことができます。

この作業の難しさは、主にダイヤモンド鉱山を掘る方法にあります。

このプロセスは、大まかに 12 のステップにまとめることができます。まず、手作業で「木」のピクセル ブロックを削り取り、次に丸太を木のブロックに合成し、木のブロックを使用して木の棒を作り、木の棒を使用してワークショップ ツール テーブルを作成し、テーブルを使用して木のつるはしを作成し、木のつるはしを使用して石を叩き、石と木の棒を使用して石のつるはしを作成し、石のつるはしを使用してかまどを作成し、かまどを使用して鉄鉱石を処理し、鉄鉱石を使用して鉄インゴットを溶かし、鉄インゴットを使用して鉄のつるはしを作成し、鉄のつるはしを使用してダイヤモンドを掘ります。

今、AIにプレッシャーがかかっています。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Researchなどの機関が2019年から関連するコンテスト「MineRL」を開催しています。

参加者は「ゼロからツールを自律的に構築し、ダイヤモンド鉱山を自動的に発見して採掘する」ことができる人工知能を開発する必要があり、勝利条件もシンプルです。最も速い人が勝利します。

結果はどうですか?

最初のMineRLコンテストの後、ネイチャー誌では「7歳の子どもが10分間のビデオを見て学習したが、AIは800万歩を歩いても理解できなかった」と報じられました。

データはたくさんあるのですが、使えません。

サンドボックス型ビルディングゲームである「Minecraft」は、プレイヤーの戦略とゲーム内の仮想環境が非常にオープンであるため、さまざまな AI モデルの学習および意思決定能力のテストの場や試金石として特に適しています。

さらに、「国民的」なゲームであるため、インターネット上で「Minecraft」に関連する動画を見つけることは簡単です。

ただし、チュートリアルを作成する場合でも、独自の作業を披露する場合でも、ある程度は画面に表示される結果にすぎません。

つまり、ビデオを見る人はアップホストが何をどのように行ったかは知ることができますが、どのように行ったかを知る方法はありません。

具体的には、コンピュータの画面に表示されるのは結果のみであり、操作手順は、アップホストがキーボードを連続的にクリックし、マウスを連続的に動かす動作であり、目に見えません。

このプロセスさえも編集されており、AIどころか人間でも学習できないと推定されています。

さらに悪いことに、多くのプレイヤーがゲーム内で木材を削る作業が退屈で、まるで宿題をこなすようなものだと不満を漏らした。その結果、アップデートの波を経て、多くのツールが無料で利用できるようになりました...しかし、今ではデータさえ見つけるのが困難になっています。

OpenAI が AI に「Minecraft」のプレイ方法を教えたい場合、この膨大な量のラベルなしビデオデータを活用する方法を見つけなければならない。

ビデオ事前トレーニングモデル - VPT

こうして、VPT が誕生しました。

論文アドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではありません。半教師あり模倣学習法です。

まず、外注したゲームプレイヤーのビデオやキーボードとマウスの操作記録などのデータを収集しました。

VPT法の概要

研究者たちはその後、このデータを使い、ビデオの各ステップでキーボードとマウスがどのように動いたかを推測できる逆動力学モデル(IDM)を作成しました。

この方法により、タスク全体がはるかに簡単になり、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

少量のアウトソーシング データを使用して IDM を完了したら、IDM を使用して、より大きなラベルなしデータセットに注釈を付けることができます。

ベースモデルのトレーニングデータが微調整に与える影響

70,000 時間のトレーニングを経て、OpenAI の行動クローニング モデルは他のモデルでは実行できないさまざまなタスクを達成できるようになりました。

モデルは、木を切り倒して木材を集める方法、木材から棒を作る方法、棒からテーブルを作る方法を学びました。このプロセス全体を完了するには、比較的熟練したプレイヤーで約 50 秒かかります。

このモデルはテーブルとして使えるだけでなく、泳いだり、狩りをしたり、食べたりすることもできます。

ジャンプするときに足の下にレンガや木のブロックを置き、ジャンプしながら柱を建てることができる、クールな「走って、ジャンプして、建てる」操作もあります。これはハードコアプレイヤーにとって必須のコースです。

テーブルを作る(0ショット)

狩猟(0発)

「走る、跳ぶ、乗る」シンプルバージョン(0ショット)

モデルがより高度なタスクを実行できるようにするため、通常、データ セットはより細かい方向を区別できるように、より小さなスケールに微調整されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「マインクラフト」を10分間プレイし、基本的な材料を使って家を建てるよう勧めた。これにより、作業台の構築など、ゲーム初期のタスクを実行するモデルの能力が向上することを期待しています。

研究者たちは、データセットを微調整した後、モデルが初期のタスクをより上手に実行できるようになっただけでなく、木製の作業台や石の道具台の作り方をモデルが自ら理解していることも発見した。

研究者は、モデルが自ら簡単なシェルターを建設したり、村を探索したり、箱を略奪したりする様子を目にすることもある。

石のツルハシを作る全工程(以下に記載されている時間は、熟練したプレイヤーが同じ作業を実行するのにかかる時間です)

石のツルハシを作る

それでは、OpenAI の専門家がどのように微調整を行っているかを見てみましょう。

彼らが使用した方法は強化学習(RL)です。

ほとんどの RL 手法では、事前確率を確率的に探索することでこれらの課題に対処します。たとえば、モデルはエントロピー報酬を通じてランダムなアクションを実行するようにインセンティブを与えられることがよくあります。ランダムなアクションを実行するよりも人間の行動をシミュレートする方が役立つ可能性があるため、VPT モデルは RL のより優れた事前モデルになるはずです。

研究者らは、ダイヤモンドのツルハシを集めるといった難しいタスクにモデルを設定した。これは「Minecraft」では前例のない機能であり、ネイティブの人間とコンピューターのインターフェースを使用すると、タスク全体を実行するのがはるかに困難になる。

ダイヤモンドのツルハシを作成するには、長くて複雑な一連のサブタスクが必要です。タスクを扱いやすくするために、研究者はシーケンス内の各項目に対してエージェントに報酬を与えました。

彼らは、ランダム初期化 (標準的な RL アプローチ) からトレーニングされた RL ポリシーは、ほとんど報酬を受け取らず、丸太を収集することを学習せず、棒を収集することはほとんどないことを発見しました。

対照的に、VPT モデルを微調整すると、ダイヤモンドのツルハシの作り方を学習できるだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できます。

Minecraft でダイヤモンドツールを作成できるコンピュータ モデルが実証されたのはこれが初めてです。

<<:  ヘルスケアにおける AI: 注目すべき 3 つのトレンド

>>:  ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

ブログ    
ブログ    

推薦する

AAAI 2024 フェロー発表、清華大学の朱軍教授が選出

AAAI(人工知能振興協会)は、人工知能分野で国際的に最も権威のある学術団体の一つです。フェローは協...

住宅地に顔認識システムを設置する前に、5つの主要なセキュリティの質問に答えてください

誰のため?なぜ?コミュニティ顔認識システム導入の需要の源と目的多くの居住コミュニティが顔認識システム...

複数人の3D姿勢を正確かつ効率的に推定、Meitu Beihang分散知覚シングルステージモデルがCVPRに採用

最近、トップコンピュータビジョンカンファレンスCVPR 2022がカンファレンスの参加結果を発表し、...

実稼働機械学習システムの構築に関する考慮事項

データとコンピューティング能力の向上に伴い、「機械学習」(ML)と「ディープラーニング」という用語は...

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...

...

PyTorch を使用した Mixture of Experts (MoE) モデルの実装

Mixtral 8x7B の発売は、オープン AI の分野、特に Mixture-of-Expert...

...

GNN の科学: テンセント AI ラボと清華大学が、等変グラフ ニューラル ネットワークをレビューする論文を共同で発表

近年、伝統的な自然科学の問題の解決においてますます多くの人工知能手法が活躍しており、いくつかの重要な...

全国大学ブロックチェーン競技会の一連の活動の一つである中国大学ブロックチェーン技術サミットが北京で開催された。

2018年5月6日、清華大学で清華大学-アルシャンブロックチェーン共同研究センターと清華大学学生ブ...

...

...

「でたらめ記事ジェネレーター」が GitHub のホットリストのトップに。ワンクリックで 10,000 語の形式主義的な傑作を生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...