エージェントは迅速なエンジニアリングに使用されます

エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか?

LLMからPromptエンジニアリングへ

大規模言語モデル (LLM) は、インターネット上のほとんどの Web ページを含む膨大なコーパスまたはテキストのデータセットでトレーニングされた Transformer ベースのモデルです。多くの時間 (および/または GPU)、エネルギー、水 (冷却用) を要するトレーニング中は、勾配降下法を使用してモデルのパラメータを最適化し、トレーニングデータを適切に予測できるようにします。

写真

本質的に、LLM は前の単語のシーケンスに基づいて、最も可能性の高い次の単語を予測することを学習します。これは推論を実行するために使用できます。つまり、モデルが何らかのテキストを生成した可能性を調べたり、ChatGPT などの LLM が人間との会話に使用できるテキストを生成したりすることができます。 LLM のトレーニングが終了し、パラメータが保存されると、トレーニングデータや再トレーニングされたデータに入力は追加されなくなります。 LLM は依然としてトレーニングデータからバイアスを学習できることは注目に値します。ChatGPT の開発元である OpenAI は、モデルが問題のあるコンテンツを生成しないように、人間からのフィードバックによる強化学習 (RLHF) を使用して安全策を追加する必要がありました。さらに、LLM は、事実確認や推論を行わずに、見たものに基づいて最も可能性の高い次の単語を単純に生成するだけなので、幻覚や事実の捏造、推論の誤りを起こしやすくなります。

ChatGPTが一般公開されて以来、LLMは世界中で人気を博しています。これらのモデルの新たな知能と私たちの生活のあらゆる側面への応用により、これらのモデルはあらゆる企業が利用したいと考える非常に人気のあるツールとなっています。チャットボットやコーディングおよびライティングアシスタントに加えて、LLM はインターネットなどのシミュレートされた環境と対話するエージェントの作成にも使用されます。

ChatGPT を試したことがある場合、回答が不十分な場合があることに気付くかもしれませんが、質問を言い換えると、より良い結果が得られる可能性があります。これはプロンプトエンジニアリングの技術であり、入力を変更して LLM が希望どおりに応答するようにします。このプロンプトの背後にある考え方は、いくつかの事実を提示したり、新しいドメインについて伝えたりして「LLM の記憶を呼び起こす」ことを試み、その後、訓練を受けた LLM から適切な応答を得ることです。これはコンテキスト学習と呼ばれ、ゼロショットと少数ショットの 2 つの主なタイプがあります。ゼロショットは LLM にヒントを提供します。これには、質問/コマンドの前に背景情報を含めることができ、LLM が適切な応答を見つけるのに役立ちます。 LLM にはサンプルプロンプトと可能な応答が数回提示され、その後、新しいプロンプトが提示され、LLM は例の形式で応答します。

ヒントエンジニアリングは、自然言語処理 (NLP) の将来のトレンドの 1 つになる可能性があります。この分野では、カスタムモデルからカスタムプロンプトへと移行しつつあります。LLM は、多くの時間と労力をかけずに誰でも独自に作成できる言語モデルよりもはるかに優れているためです。 LLM を適切なヒントエンジニアリングと組み合わせると、通常は専用モデルで実行できることはすべて実行できます。

写真

CoTからエージェントへ

Chain of Thoughts (CoT) は、推論エラーに対抗するために設計された、人気のキューエンジニアリング手法です。これは、言語的推論によって問題を解決する方法の例を LLM に 1 つ以上示し、次にこの方法で解決する別の問題を与えることを意味します。これは推論の誤りを克服するのに役立ちますが、それでも幻覚の影響を受け、幻覚の「事実」が推論を通じて伝播し、モデルが誤った結論を導き出す可能性があります。

1 つの質問のみを提示する標準プロンプトは、問題を解決するために複数の推論ステップを必要とする Chain of Thought (CoT) プロンプトの入力と比較されます。錯覚の問題により、CoT プロンプトを使用した LLM はより説得力のある応答を示しましたが、それでも間違っている可能性があります。 LLM が有用なツールとなるためには、自分で作り上げることができなければ、彼らを信頼することはできず、自分で調査を行う方がよいでしょう。エージェントはこの問題を解決できるようで、LLM が Wikipedia を検索して事実や理由を見つけるなどのアクションを実行できるようにします。

プロンプトエンジニアリングのエージェントアプリケーションの例 - ReAct

思考連鎖と同様に、ReAct は、小規模学習を使用してモデルに問題を解決する方法を教えるヒントエンジニアリングアプローチです。 CoT は人間が問題を考える方法を模倣すると考えられており、ReAct にもこの推論要素が含まれていますが、エージェントがテキストを操作して環境と対話できるようにすることでさらに一歩進んでいます。人間は、戦略を立てたり物事を記憶したりするために言語的推論を使用しますが、より多くの情報を得て目標を達成するための行動をとるためにも言語的推論を使用します。これがReActの基礎です。 ReAct プロンプトには、アクションの例、アクションを通じて得られた観察、プロセスのさまざまなステップでの人間の思考の転写 (推論戦略) が含まれます。 LLM は、環境内でエージェントとして考え、行動するためのこのクロストークアプローチを模倣することを学びます。

観測は LLM によって生成されるのではなく、環境によって生成されることを覚えておくことが重要です。環境は、LLM が特定のテキスト操作を通じてのみ対話できる別のモジュールです。したがって、ReAct を実装するには、次のことが必要です。

テキストアクションを受け取り、環境の内部状態に基づいて変更できる一連の潜在的なアクションからテキスト観測を返す環境。
エージェントが有効なアクションを記述するとテキストの生成を停止し、環境内でアクションを実行し、通常はこれまでに生成されたテキストに追加される観察結果を返し、結果を LLM にプロンプトする出力パーサーフレームワーク。
思考、行動、観察を組み合わせた人工的に生成された例は、少数のショット環境で使用できます。例の数と詳細は、目標と開発者の設計によって異なります。例:

ここでは、思考、アクション、観察が上記のように明確にラベル付けされており、アクションはクエリを括弧で囲んだ特別な形式を使用しているため、エージェントはこの方法でタスクを記述することを学習でき、出力パーサーはクエリを簡単に抽出できます。

Yao et al. (2023) はPalM-540Bを使用し、このLLMを使用して、2つの知識集約型推論タスクと2つの意思決定タスクに対するReActベースのプロンプトエンジニアリングの効果をテストしました。

知識集約型の推論タスク

このタスク領域で使用される 2 つのドメインは HotPotQA と FEVER です。前者は Wikipedia の文章を使用したマルチホップの質問応答であり、後者は事実検証です。エージェントは、次の操作を使用して Wikipedia API と対話できます。

検索: 名前または最も類似した結果のリストからページを検索します。
検索: ページ内の文字列を検索します。
回答してタスクを終了します。

ReAct は、HotPotQA と FEVER の 2 つの評価ドメインで、以下のヒントエンジニアリング手法と比較されます。結果は、FEVER での精度と HotPotQA での EM によって評価されます。

写真

で：

標準プロンプト: 考え、行動、または観察はありません。
CoT: タイムリーなアクションまたは観察がありません。
CoT-SC (自己一貫性) : LLM から一定数の応答がサンプリングされ、その大部分が応答として選択されます。
アクション: 思考プロンプトはありません。
ReAct ->CoT-SC: ReAct から開始し、その後 CoT-SC に切り替わります。
CoT-SC->ReAct: CoT-SC から開始し、その後 ReAct に切り替わります。

ReAct は HotPotQA ではパフォーマンスが低いですが、FEVER では CoT よりもパフォーマンスが優れています。 ReAct は CoT よりも幻覚を起こしにくいですが、推論エラーの発生率は高くなります。 ReAct にはこの欠点がありますが、ReAct-> CoT-SC と CoT-SC-> ReAct のメソッドが最も成功しています。

意思決定タスク

ReAct をテストするための 2 つの決定タスクは、ALFWorld と WebShop です。

ALFWorld は、現実的な環境を備えたテキストベースのゲームです。シミュレートされた世界で移動したり対話したりするためのテキストアクション (「引き出し 1 を開く」など) があります。エージェントに与えられる目標の 1 つは、家の中で特定のオブジェクトを見つけることです。そのため、常識的な推論によって、そのようなオブジェクトが通常どこにあるかを知ることができます。成功は目標を達成した試行の割合として測定されます。

WebShop は、Amazon のデータを使用してシミュレートされたオンラインショッピングサイトです。モバイルナビゲーションサイトや検索製品が多数存在するため、これは難しい分野です。目標は、ユーザーの仕様を満たすプロジェクトを見つけることです。成功は、選択された項目がユーザーの心の中に隠された項目にどれだけ近いかによって測定されます。

論文の評価結果によると、ReAct はベースラインよりも大幅に優れたパフォーマンスを発揮します。

ReAct は推論エラーのために不完全ですが、思考連鎖推論の事実錯覚問題を克服し、LLM が環境と対話できるエージェントになることを可能にする強力なキューエンジニアリング手法です。さらに、エージェントは行動しながら思考プロセスを出力するため、解釈可能です。

まとめ

プロンプトエンジニアリングに適用されるエージェントの具体的な実装として、ReAct は汎用人工知能と具体的な言語モデルに向けて一歩前進します。ロボットが、馴染みのある特徴に基づいて外部環境をモデル化し、そのモデルを使用して手がかりを作成する方法があれば、人工的に作成された例を必要とせずに、さまざまな領域で少なくとも独立して行動しようとすることができます。また、何らかの記憶、つまり経験から学ぶ能力も必要です。常識的な知識を持つロボットは、推論エラーや幻覚などの問題を解決できる限り、私たちにとって大きな助けとなるでしょう。

ところで、モデルが大きいということは、良い製品ができるということでしょうか? プロダクトマネージャーの貢献は、依然として不可欠な場合が多くあります。スマート音声製品を例にとると、製品設計をより良く完成させるために、このようなデスクマニュアル（著者の最新翻訳）が必要になる場合があります。

<<: GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

>>: 7Bモデルがまた手に入ると最高ですね！ 700億のLLaMA2を突破、Appleのコンピュータは

エージェントは迅速なエンジニアリングに使用されます

LLMからPromptエンジニアリングへ

CoTからエージェントへ

プロンプトエンジニアリングのエージェントアプリケーションの例 - ReAct

知識集約型の推論タスク

意思決定タスク

まとめ

人工知能は実体経済の強化を加速させる

ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

Terence Tao さんがリポストして「いいね！」しました！ ChatGPTは自動的に大きな進歩を証明し、AIは10年後に数学の世界を支配するだろう

TransformerはAI分野を支配するのでしょうか？結論を出すのは時期尚早だ

OCRの終焉？ Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

Python 機械学習でプログラミングスキルを向上させる方法

AIが作ったノアの箱舟はどこへ行くのでしょうか？

土曜日に上海でお会いしましょう！アセンドアカデミー上海テクノロジーオープンデーでは、開発者がAIについて語る

NVIDIA が Canvas を発表: AI を活用してシンプルな筆遣いをフォトリアリスティックな風景画に変換

12 のシナリオアプリケーション、100 を超えるアルゴリズム、AI はどのようにして経済を征服するのか?

推薦する

DeepMindは、オンラインで攻撃的な言葉を出力することに特化したZaun AIを提案している

MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

自然言語処理のためのニューラルネットワークモデルに関する予備的研究

IBM CEOがパートナーに「一緒にAIで大儲けしましょう」

Nature サブジャーナル: 機械学習を使用してヒトの遺伝子制御の背後にある「文法」を明らかにする

人工知能産業の将来は、パンデミックの最中に過大評価されているのでしょうか?

OpenAI が 120 億のパラメータを持つ魔法のモデルをリリース!テキスト合成された画像は、まるで人間の言語想像力を持っているかのようにリアルである。

人工知能とビッグデータを開発する際に留意すべき12のこと

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

ゼロから学ぶPythonによるディープラーニング！

2023 年のコンピューターサイエンスにおける 7 つの大きなブレークスルー! 「PとNP」は過去50年間の古典的な問題です。大規模なモデルがリストに大量に登場しています。

ホワイトハウスは開発者にCとC++を放棄するよう求める声明を発表した。メモリの安全性のためにRustが「選ばれた」

この記事では、ニューラルネットワークBPアルゴリズムの原理とPythonでの実装について説明します。