びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI は最終的に Minecraft でダイヤモンドのツルハシを作ることを学習しました。

熱心なゲーマーであれば、このプロセス全体を完了するのに少なくとも 20 分、合計 24,000 回の操作が必要になります。

これは単純なことのように思えますが、AIにとっては非常に難しいことです。

7歳の子供でも10分で習得できる

最も単純な木製のツルハシの場合、人間のプレイヤーがプロセスを一から学ぶのはそれほど難しくありません。

オタクは1本のビデオを使って3分以内に他のオタクに教えることができます。

デモビデオの長さは2分52秒です。

ただし、ダイヤモンドのツルハシの製作ははるかに複雑です。

それでも、7歳の子供は、たった10分のデモンストレーションビデオを見るだけでそれを学ぶことができます。

この作業の難しさは、主にダイヤモンド鉱山を掘る方法にあります。

このプロセスは、大まかに 12 のステップにまとめることができます。まず、手作業で「木」のピクセル ブロックを削り取り、次に丸太を木のブロックに合成し、木のブロックを使用して木の棒を作り、木の棒を使用してワークショップ ツール テーブルを作成し、テーブルを使用して木のつるはしを作成し、木のつるはしを使用して石を叩き、石と木の棒を使用して石のつるはしを作成し、石のつるはしを使用してかまどを作成し、かまどを使用して鉄鉱石を処理し、鉄鉱石を使用して鉄インゴットを溶かし、鉄インゴットを使用して鉄のつるはしを作成し、鉄のつるはしを使用してダイヤモンドを掘ります。

今、AIにプレッシャーがかかっています。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Researchなどの機関が2019年から関連するコンテスト「MineRL」を開催しています。

参加者は「ゼロからツールを自律的に構築し、ダイヤモンド鉱山を自動的に発見して採掘する」ことができる人工知能を開発する必要があり、勝利条件もシンプルです。最も速い人が勝利します。

結果はどうですか?

最初のMineRLコンテストの後、ネイチャー誌では「7歳の子どもが10分間のビデオを見て学習したが、AIは800万歩を歩いても理解できなかった」と報じられました。

データはたくさんあるのですが、使えません。

サンドボックス型ビルディングゲームである「Minecraft」は、プレイヤーの戦略とゲーム内の仮想環境が非常にオープンであるため、さまざまな AI モデルの学習および意思決定能力のテストの場や試金石として特に適しています。

さらに、「国民的」なゲームであるため、インターネット上で「Minecraft」に関連する動画を見つけることは簡単です。

ただし、チュートリアルを作成する場合でも、独自の作業を披露する場合でも、ある程度は画面に表示される結果にすぎません。

つまり、ビデオを見る人はアップホストが何をどのように行ったかは知ることができますが、どのように行ったかを知る方法はありません。

具体的には、コンピュータの画面に表示されるのは結果のみであり、操作手順は、アップホストがキーボードを連続的にクリックし、マウスを連続的に動かす動作であり、目に見えません。

このプロセスさえも編集されており、AIどころか人間でも学習できないと推定されています。

さらに悪いことに、多くのプレイヤーがゲーム内で木材を削る作業が退屈で、まるで宿題をこなすようなものだと不満を漏らした。その結果、アップデートの波を経て、多くのツールが無料で利用できるようになりました...しかし、今ではデータさえ見つけるのが困難になっています。

OpenAI が AI に「Minecraft」のプレイ方法を教えたい場合、この膨大な量のラベルなしビデオデータを活用する方法を見つけなければならない。

ビデオ事前トレーニングモデル - VPT

こうして、VPT が誕生しました。

論文アドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではありません。半教師あり模倣学習法です。

まず、外注したゲームプレイヤーのビデオやキーボードとマウスの操作記録などのデータを収集しました。

VPT法の概要

研究者たちはその後、このデータを使い、ビデオの各ステップでキーボードとマウスがどのように動いたかを推測できる逆動力学モデル(IDM)を作成しました。

この方法により、タスク全体がはるかに簡単になり、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

少量のアウトソーシング データを使用して IDM を完了したら、IDM を使用して、より大きなラベルなしデータセットに注釈を付けることができます。

ベースモデルのトレーニングデータが微調整に与える影響

70,000 時間のトレーニングを経て、OpenAI の行動クローニング モデルは他のモデルでは実行できないさまざまなタスクを達成できるようになりました。

モデルは、木を切り倒して木材を集める方法、木材から棒を作る方法、棒からテーブルを作る方法を学びました。このプロセス全体を完了するには、比較的熟練したプレイヤーで約 50 秒かかります。

このモデルはテーブルとして使えるだけでなく、泳いだり、狩りをしたり、食べたりすることもできます。

ジャンプするときに足の下にレンガや木のブロックを置き、ジャンプしながら柱を建てることができる、クールな「走って、ジャンプして、建てる」操作もあります。これはハードコアプレイヤーにとって必須のコースです。

テーブルを作る(0ショット)

狩猟(0発)

「走る、跳ぶ、乗る」シンプルバージョン(0ショット)

モデルがより高度なタスクを実行できるようにするため、通常、データ セットはより細かい方向を区別できるように、より小さなスケールに微調整されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「マインクラフト」を10分間プレイし、基本的な材料を使って家を建てるよう勧めた。これにより、作業台の構築など、ゲーム初期のタスクを実行するモデルの能力が向上することを期待しています。

研究者たちは、データセットを微調整した後、モデルが初期のタスクをより上手に実行できるようになっただけでなく、木製の作業台や石の道具台の作り方をモデルが自ら理解していることも発見した。

研究者は、モデルが自ら簡単なシェルターを建設したり、村を探索したり、箱を略奪したりする様子を目にすることもある。

石のツルハシを作る全工程(以下に記載されている時間は、熟練したプレイヤーが同じ作業を実行するのにかかる時間です)

石のツルハシを作る

それでは、OpenAI の専門家がどのように微調整を行っているかを見てみましょう。

彼らが使用した方法は強化学習(RL)です。

ほとんどの RL 手法では、事前確率を確率的に探索することでこれらの課題に対処します。たとえば、モデルはエントロピー報酬を通じてランダムなアクションを実行するようにインセンティブを与えられることがよくあります。ランダムなアクションを実行するよりも人間の行動をシミュレートする方が役立つ可能性があるため、VPT モデルは RL のより優れた事前モデルになるはずです。

研究者らは、ダイヤモンドのツルハシを集めるといった難しいタスクにモデルを設定した。これは「Minecraft」では前例のない機能であり、ネイティブの人間とコンピューターのインターフェースを使用すると、タスク全体を実行するのがはるかに困難になる。

ダイヤモンドのツルハシを作成するには、長くて複雑な一連のサブタスクが必要です。タスクを扱いやすくするために、研究者はシーケンス内の各項目に対してエージェントに報酬を与えました。

彼らは、ランダム初期化 (標準的な RL アプローチ) からトレーニングされた RL ポリシーは、ほとんど報酬を受け取らず、丸太を収集することを学習せず、棒を収集することはほとんどないことを発見しました。

対照的に、VPT モデルを微調整すると、ダイヤモンドのツルハシの作り方を学習できるだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できます。

Minecraft でダイヤモンドツールを作成できるコンピュータ モデルが実証されたのはこれが初めてです。

<<:  ヘルスケアにおける AI: 注目すべき 3 つのトレンド

>>:  ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

ブログ    

推薦する

AIと機械学習ベースのソフトウェアソリューションが小売業界にどのような変化をもたらしているか

人工知能とその応用は間違いなくこれらの分野に革命をもたらし、新たな方向へと導いてきました。その応用範...

PyTorch がトップカンファレンスを席巻: CVPR 論文は TensorFlow の 4 倍を占める

オープンソース フレームワークの分野では、PyTorch と TensorFlow の間で常に議論が...

AIを活用した自動化が成果を上げる:自動化の破壊的イノベーションにより収益成長が1.5倍に増加

新型コロナウイルス感染症のパンデミックによって引き起こされた市場の混乱は、世界中の企業に引き続き重く...

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

...

生成型 AI は急速な発展期を迎えています。その応用はどのように実装されるのでしょうか?

先月、国際的に有名な学術誌「ネイチャー」が2023年のトップ10を発表しました。世界的な科学イベント...

マイクロソフトはセキュリティ上の理由から従業員によるOpenAI ChatGPTの使用を制限

11月10日、マイクロソフトは人工知能研究企業OpenAIに100億ドル以上を投資したにもかかわらず...

たった今、アリババが重大な技術的爆弾を発表しました!

人類史上のスーパープロジェクトとは何でしょうか?ピラミッド、万里の長城、ドバイワールドアイランド、三...

機械学習を理解するには、「3つの魔法の武器」を理解するだけで十分です

クイズ番組「ジェパディ」の優勝者や囲碁の名人から、広告に関連した不名誉な人種プロファイリングまで、私...

...

Hudiに基づくByteDanceの機械学習アプリケーションシナリオ

統合ストリームとバッチサンプルの生成プロセスを明らかにし、Hudiカーネルの最適化と変換を共有し、デ...

...

IEEE年末AIレビュー:ネットユーザーがGPT-3に悪態をつくよう教える、DeepMindが再びロボットを作る

[[442763]] 2021年、「人工知能の奇跡」はもはや単なる物語ではありません!年末が近づく中...

...

人工知能の力がどのように販売業界に革命をもたらしているか

販売業界が進化し続けるにつれて、販売チームが新規顧客を引き付け、既存顧客を維持するのに役立つ販売戦略...