AI は独自のコードを記述して、インテリジェントエージェントの進化を可能にします。 OpenAIの大規模モデルには「人間の思考」の風味がある

トラブルを起こせ！

AI は、人間が GitHub で更新 (コミット) を送信する方法を「見て」、人間のプログラマーを模倣してコードを変更しました...

最終的に、この AI はインテリジェントロボットを「トレーニング」することに成功しました。

冗談ではなく、このような恐ろしいことが、OpenAI が最近発表した研究で実際に起こったのです...

当初、研究者たちは、知能ロボットに動き方を教えるという遺伝的プログラミング（GP）の問題を解決したいと考えていました。

(GP は進化計算の特殊な領域であり、問題を独立して解決するプログラムを自動的に構築することに重点が置かれています。)

しかし、OpenAIは異なるアプローチを採用し、独自の大規模言語モデル（LLM）を組み込んだ結果、予想外の大きな成果が生まれました。

これまで、インテリジェントエージェントの進化の過程では、インテリジェントエージェントが良い方向に発展できるように、人間の研究者が関与して細かい調整を行ったり、進化の方向を決定したりする必要がありました。

現在、これらすべてのタスクは大きなモデルによって処理されます。自分で学習し、コードを記述し、「調整」することができます。

論文の第一著者であるジョエル・レーマン氏がこれをインターネット上で公開すると、すぐにネットユーザーから大きな注目を集めた。

これを読んで、あるプログラマーのネットユーザーは「（技術）開発のペースについていけない」と述べた。

OpenAI自身も研究の中で次のように述べています。

進化アルゴリズムが人間の思考レベルで機能するギャップを埋めます。

では、AI はどのようにしてこの「魔法のような」ことを実現するのでしょうか?

GitHubを見てください。AIが自分でコードを書きます

仮想環境での移動ロボットの設計は、遺伝的アルゴリズムの研究において非常に人気のあるプロジェクトです。

特に、Sodarace コンテストは、計算量が少なく、プロセスを視覚化しやすいため、非常に人気があります。

ルールは簡単で、「関節」と「筋肉」で構成されたロボットがさまざまな地形でレースをします。

OpenAIはまた、現代のプログラミング言語に対する新しい方法の汎用性を実証するために、競技プログラム全体を専用の遺伝子コーディングからPythonバージョンに意図的に書き直した。

たとえば、次のような Python コードを初期シードロボットとして使用できます。

正方形の4つの頂点ジョイントと終点ジョイントを定義して「筋肉」で接続すると、次のようになります。

ただし、この正方形の構造はまったく動かすことができないため、コードを変更するには遺伝的アルゴリズムに頼る必要があります。

研究チームは、従来の遺伝的アルゴリズムを使用してコードを変更する場合と、人間のプログラマーが自分で変更する場合との間に、効率性の点で 2 つの違いがあると考えています。

1つは、ソフトウェアはますます複雑になってきており、人間はモジュールコードの再利用を使用してこれに対処できますが、最も高度な遺伝的アルゴリズムは現在、人間が使用するプログラミング言語ではこれを行うことができません。

もう 1 つは、ほぼすべての遺伝的アルゴリズムがランダムな突然変異に依存しているのに対し、人間のプログラマーは、機能の追加、効率性の向上、バグの修正など、コードを変更するたびに目的を持っていることです。

では、AI が人間がコードを変更する方法を学習する方法はあるのでしょうか?

はい、あります。必要なトレーニングデータは GitHub で入手できます。

優秀なプログラマーは、コードを送信するたびにコミットの説明を記述し、このコミットで変更されたコンテンツを明確に示します。

コミットの説明と、送信前後のコードを比較した差分データを組み合わせると、AI にとって優れた学習教材になります。

研究者たちは、明確な記述意図と少量の修正コードを含む提出データをいくつか選択し、GPT-3 アーキテクチャを使用して AI モデルをトレーニングしました。

これは、AI が人間のプログラマーから意図的にコードを変更する方法を学習するのと同じです。

この論文で使用されているモデルは、GPT-3 のフルバージョンの 1,750 億のパラメータほど大きくする必要はなく、最大 7 億 5,000 万のパラメータで十分です。

このようにして、遺伝的アルゴリズムにおける突然変異演算子の役割を果たす基本的な AI モデルが得られます。

次のステップは、AIに新しいロボットを自ら設計させることです。このプロセスは3つのステップに分かれています。

最初のステップは、従来の MAP-Elites アルゴリズムを使用して初期ロボットのグループを生成することです。

これは、ロボットが異なった動作をし、高品質であることを保証する QD (Quality Diversity) アルゴリズムです。

2 番目のステップでは、最初のステップで生成された初期データを事前トレーニングに使用して、AI が最初にトレーニングデータの分布内でロボットの設計を学習できるようにします。

これは、インターネット上のすべての人を驚かせた冒頭のアニメーション画像であり、AI が動かない「ブロック」を、交互に足を跳ねる移動ロボットに徐々に変化させていく様子を示しています。

3 番目のステップは、強化学習アルゴリズムを微調整して、AI がさまざまな地形条件に基づいて環境に適応できるロボットを生成できるようにすることです。

最終的に、研究者たちはその効果を実証するために、元の3つの種子から進化したロボットを選択しました。

構造や動き方が全く異なっていることがわかります。

ネットユーザー「ユニークな考え方」

この研究が発表されると、大きな騒動が起こりました。

多くのネットユーザーは、この「ビッグモデル + 進化的アルゴリズム」の斬新な組み合わせに驚きました。

関連研究を行った研究者らも、大規模なモデルを使用して diff の形で変異を学習することは考えたこともなかったと述べています。

研究フォームとそれ自体についての議論に加えて、一部のネットユーザーは次の写真も投稿しました。

うーん...確かにその味がしますね。

チームについて

この研究のチームメンバーは全員 OpenAI 出身です。

この論文の第一著者は機械学習科学者のジョエル・レーマン氏です。重点分野には、AI の安全性、強化学習、オープン検索アルゴリズムなどがあります。

同時に、ジョエル・レーマンは以前、人工知能の開発に関する自身の考えに基づいた科学書「偉大さはなぜ計画できないのか：客観性の秘密」を共同執筆しました。

この研究の次のステップについては、ジョエル・レーマン自身が次のように述べています。

もう 1 つの重要な問題は、モデルを他の状況にどの程度適用できるかということです。

GP における変異の有効性は ELM によって大幅に改善されるようになり、幅広い新しいアプリケーションと研究の方向性が刺激されるでしょう。

では、この研究はあなたに新たなインスピレーションも与えたのでしょうか?

参考リンク:

[1] https://arxiv.org/abs/2206.08896

[2] https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog

>>: AIは新たな科学革命を先導している

ブログ

ChatGPT の機能低下が論争を引き起こしています。AIGC アプリケーションは依然として信頼できるのでしょうか?

ブログ

人工知能の役割がクローズアップ！ロボットが増えると雇用に影響が出るでしょうか?

ブログ

LZ77 圧縮アルゴリズムエンコーディング Python 実装原理図

ブログ

AI は独自のコードを記述して、インテリジェントエージェントの進化を可能にします。 OpenAIの大規模モデルには「人間の思考」の風味がある

GitHubを見てください。AIが自分でコードを書きます

ネットユーザー「ユニークな考え方」

チームについて

ChatGPT の機能低下が論争を引き起こしています。AIGC アプリケーションは依然として信頼できるのでしょうか?

人工知能は祝福か、それとも呪いなのか?

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

無線ルーターのさまざまな暗号化アルゴリズムの包括的な説明

人工知能の役割がクローズアップ！ロボットが増えると雇用に影響が出るでしょうか?

LZ77 圧縮アルゴリズムエンコーディング Python 実装原理図

推薦する

人工知能におけるGNNとは何ですか?

概要: AI はサイバーセキュリティをどのように変えるのでしょうか?

今後5年間の産業AIの8つの主要な発展トレンド

考えてみてください。連合学習は大規模な言語モデルをトレーニングできるのでしょうか?

AI 株神: 機械学習を使って株価を予測するには?

AIと機械学習を活用して、誰にでも何でも販売する

優れた機械学習論文を書くにはどうすればいいでしょうか?

テキストの説明に基づいてビデオから画像を切り取る、Transformer：このクロスモーダルタスクは私が最も得意とすることです

機械翻訳：人工知能分野の重要な中核技術

推奨される 5 つのオープンソースオンライン機械学習環境

機械学習 = 「新しいボトルに入った古いワイン」の統計？いいえ！

AIの威力を改めて見せつける！ Baidu Map 20分間のカスタマイズされたパーソナル音声パッケージ