Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

AI は驚異的な進歩を遂げていますが、多くの分野ではまだ限界があります。たとえば、コンピューター ゲームでは、AI エージェントにゲームのルールが事前にプログラムされていない場合、正しい選択を決定するまでに何百万回も試行する必要があります。人間は言語の使用を通じて過去の知識を新しいタスクに転用することに長けているため、同じ偉業をはるかに短い時間で達成することができます。

ドラゴンを倒すゲームでは、AI エージェントはドラゴンを倒さなければならないことを理解するまでに、他の多くのアクション (壁や花に向かって火を吐くなど) を試す必要があります。しかし、AIエージェントが言語を理解していれば、人間は言語を使って「ゲームに勝つにはドラゴンを倒せ」と指示するだけで済みます。

視覚ベースの言語は、人間がスキルを一般化し、それを新しいタスクに適用する上で重要な役割を果たしますが、これは機械にとって依然として大きな課題です。機械が真に知的になり、人間のように学習する能力を獲得するには、複雑な言語システムを開発することが不可欠です。

この目標に向けた第一歩として、Baidu IDL Lab は、教師あり学習と強化学習を組み合わせたシステムを開発しました。このシステムにより、親が赤ちゃんに教えるのと同じように、仮想教師が言語を知覚と行動に結び付けて仮想 AI エージェントに言語を教えることができます。

IDL Labの結果によると、トレーニング後、AIエージェントは教師の指示を自然言語で正しく解釈し、対応するアクションを実行できることがわかりました。さらに、AIエージェントは「ゼロショット学習能力」を発達させ、つまり、根底にある文章を理解できるようになったことを同研究所は発見した。「この研究は、機械に人間のように学習することを教えることに一歩近づくものだ。」

論文リンク: http://arxiv.org/abs/1703.09831

研究概要

この研究は、XWORLDと呼ばれる2D迷路のような環境で実施されました。Baiduの仮想エージェントは、仮想教師が発行した自然言語のコマンドに基づいてこの環境をナビゲートする必要がありました。最初は、エージェントはこの言語について何も知らず、すべての単語は同じように意味をなさない。 しかし、ロボットが環境を探索する際に、ロボットがコマンドの実行に成功した場合(または失敗した場合)には、教師は肯定的(または否定的)に応答します。

エージェントがより速く学習できるように、教師はエージェントが移動する際に環境に関する簡単な質問も行います。エージェントは質問に正しく答える必要があります。正しい行動/回答を奨励し、誤った行動/回答を罰することで、教師は多くの試行錯誤を経て、エージェントが自然言語を理解できるようにトレーニングすることができます。

コマンドの例には次のようなものがあります。

  • Appleに移行してください。
  • リンゴとバナナの間のグリッドに移動できますか?
  • 赤いリンゴまで移動できますか?

いくつかのQ&Aの例:

  • 質問:北にある物体は何ですか? 答え: バナナです。
  • 質問:バナナはどこにありますか? 答え: 北にあります。
  • 質問:リンゴの西にある物体の色は何ですか? 答え: 黄色

結果

最終的に、エージェントは教師のコマンドを正しく解釈し、正しい場所に移動できるようになります。さらに、このエージェントは研究チームが「ゼロショット学習能力」と呼ぶ能力を発達させた。これは、エージェントがこれまで見たことのないまったく新しいコマンドを提示された場合でも、以前に同様の形式の文章を十分に見たことがあれば、タスクを正しく実行できることを意味する。言い換えれば、エージェントは既知の単語で構成された新しい文を既知の方法 (文法) で理解することができます。

たとえば、ナイフでリンゴを切る方法を学んだ人は、ナイフでドラゴンフルーツを切る方法も知っているでしょう。過去の知識を新しいタスクに適用することは人間にとっては非常に簡単ですが、現在のエンドツーエンドの学習マシンにとっては依然として困難です。

機械は「ドラゴンフルーツ」がどのような見た目かは知っているかもしれませんが、そのコマンドを含むデータセットを使用して明示的にトレーニングされていない限り、「ナイフでドラゴンフルーツを切る」というタスクを実行することはできません。対照的に、私たちのエージェントは、まったく同じことについてトレーニングを受けなくても、ドラゴンフルーツの見た目や「ナイフで切る」タスクに関する知識を転送する能力を示しています。

下の図は、エージェントがナビゲーション タスク テストを正常に実行していることを示しています。

ナビゲーションステートメント

  • キャベツの西側へ移動してください。
  • 図の東側へ移動してください。

文章を識別する

  • Q:南東には何がありますか?
  • A:スイカ。

ナビゲーションテスト

  • 図の西側へ移動してください。

ナビゲーションステートメント

  • ココナッツに移動できますか?
  • Appleに移ることはできますか?

ナビゲーションテスト

  • スイカに移動できますか?

Baidu Research Institute の追跡調査には 2 つの方向性があります。

  • 1 つは、現在の 2D 環境で自然言語コマンドを使用してエージェントにさらに多くの機能を教えることです。
  • もう 1 つは、仮想 3D 環境に移行することです。仮想 3D 環境はより多くの課題をもたらし、私たちが現実に暮らす環境にさらに似ています。

Baidu の最終的な目標は、人間が自然言語を使用して実際の環境で本物のロボットを訓練できるようにすることです。

<<:  機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

>>:  普通のプログラマーがAIを活用する方法

ブログ    

推薦する

パンデミックの中、大量のAIロボットが職務に就いている

2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...

...

OpenAIの最新製品が企業ビジネスにもたらす意味

企業向け GenAI の民主化世界的なデジタル変革コンサルタント会社パブリシス・サピエントの最高製品...

...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...

CatBoost: XGBoost よりも優れた GBDT アルゴリズム

[[242113]] [51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨シ...

ロボットをもっと速く走らせたい?人工知能で制御しよう

四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...

ファーウェイ、2025年のトップ10トレンドを発表:大企業の97%がAIを導入

世界の人口の58%が5Gネットワ​​ークにアクセスできるようになり、14%の家庭に「ロボット執事」が...

航空会社が AI を活用して乗客体験を向上させる方法

「おはようございます、ジョーンズさん。ロンドン・ガトウィック空港からパリへの『ニューノーマル』フライ...

シュナイダーエレクトリックの革新力は、デジタル化と低炭素化の二重の変革を加速させる上でどのような役割を果たすのでしょうか。

デジタル変革の後半期に入る中、デジタルとリアルの融合をいかに加速し、グリーン・低炭素の発展へと向かう...

アルゴリズムはあなたが次に何をするかを知っている

[[113040]]コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識...

トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

トランスフォーマーのメンバー8人全員がGoogleから離脱した。 Googleの画期的なTransf...

会話型AIが重要なサービスに与える影響

コミュニケーションツールが進化するにつれ、電話や携帯電話は人々が情報を素早く共有する能力に大きな影響...

Ruan Yifeng: Github のオブジェクトカウントアルゴリズム

Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローン ht...