カルパシーはOpenAIの内部闘争中にビデオを録画しました：大規模言語モデル入門がオンラインです

OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。

今年初めに OpenAI に復帰した Andrej Karpathy 氏は最近、大規模言語モデル (LLM) に関する 30 分間の入門講義を行ったが、その講義は当時は録画されていなかった。そこで彼は、もっと多くの人が見て学べるよう、この講義に基づいた1時間のビデオを再録画した。

ビデオのテーマは「大規模言語モデルの概要」で、LLM の推論、トレーニング、微調整、そして新しい LLM オペレーティングシステムと LLM セキュリティについて取り上げています。このビデオは主に「非技術的」で、より一般的な科学である傾向があるため、理解しやすいです。

さらに詳しい内容を知りたい場合は、元の動画をご覧ください。

カルパシー氏が何を話したか見てみましょう。ビデオは主に、LLM、LLM の将来、LLM の安全性の 3 つの部分に分かれています。

最初の部分では、Karpathy 氏がまず LLM の基礎知識を紹介し、Meta がリリースしたオープンソースの大型モデル Llama 2-70b を例に挙げました。このモデルには 700 億個のパラメータがあり、主にパラメータファイル (ファイルサイズは 140 GB) とこれらのパラメータを実行するコード (C 言語を例にとると、約 500 行のコードが必要) の 2 つのファイルで構成されています。

そのため、LLM の推論段階で、Karpathy 氏は、これら 2 つのファイルと MacBook だけで、インターネット接続やその他の設備を必要とせずにスタンドアロンシステムを構築できると述べました。ここで彼は、70 億のパラメータを持つ大規模なモデルを実行する例を示しています。

LLM トレーニングは推論よりもはるかに複雑です。 Karpathy 氏は、モデル推論は MacBook でも実行できるが、モデルのトレーニングプロセスには膨大な計算量がかかる、と述べた。したがって、インターネットコンテンツを圧縮する必要があります。彼は Llama 2-70b を例に挙げ、モデルのトレーニングにはインターネットから約 10 TB のテキストをクロールする必要があり、約 12 日間のトレーニングに約 6,000 個の GPU が必要で、コストは 200 万ドル、パラメータファイルのサイズは約 140 GB であることを説明しました。

明らかに、Llama 2-70b は最大ではありません。ChatGPT、Claude、Bard をトレーニングすると、これらの数値は 10 倍以上に増加し、コストは数千万ドル、さらには数億ドルにまで高くなる可能性があります。

ただし、これらのパラメータを取得すれば、ニューラルネットワークの実行にかかる計算コストは比較的低くなります。 Karpathy 氏は、ニューラルネットワークとは何か、その基本的なタスクはシーケンス内の次の単語を予測することであると説明します。彼はトレーニングプロセスをインターネットの一種の圧縮と見なしており、次の単語を正確に予測できれば、それを使ってデータセットを圧縮できると考えています。

ニューラルネットワークはどのようにして次の単語を予測するのでしょうか? Karpathy 氏は、次の Transformer ニューラルネットワークアーキテクチャ図に示すように、1,000 億個のパラメーターがニューラルネットワーク全体に分散されていると紹介しました。これには、ネットワーク全体が次の単語を予測するタスクをより適切に実行できるように、これらのパラメータを繰り返し調整する必要があります。

上記は事前トレーニングと呼ばれるトレーニングの最初の段階ですが、実際のアシスタントモデルをトレーニングするには明らかに不十分です。これは微調整の段階です。事前トレーニング段階では、インターネットからの大量のテキストデータが必要になりますが、その品質は必ずしも高くない可能性があります。ただし、微調整段階では、データの量ではなく質に重点が置かれます。たとえば、非常に高品質の会話ドキュメントが必要になります。

Karpathy は、独自の ChatGPT をトレーニングする方法をまとめています。事前トレーニング段階では基本モデルを取得し、微調整段階ではラベル指示の作成、高品質の QA 応答の収集を行う人材の雇用、基本モデルのさらなる微調整、多数の評価の実施、および展開が必要になります。

パート 2 では、LLM スケーリングルール、ツールの使用、マルチモダリティ、思考とシステム 1/2、自己改善と LLM AlphaGo、LLM カスタマイズ、GPT ストア、LLM オペレーティングシステムなど、LLM の将来について説明します。

いわゆる LLM スケーリング則とは、LLM のパフォーマンスが、ネットワーク内のパラメータ数 (N) とトレーニングするテキストの量 (D) という 2 つの変数の非常にスムーズで、動作が適切で、予測可能な関数として表現できることを意味します。これら 2 つの変数をスケーリングすることで、次の単語予測タスクの精度を予測できます。

使用されたツールについては、Karpathy 氏はブラウザ、計算機、インタープリタ、DALL-E を挙げました。ここではOpenAIが開発したテキストグラフツールであるDALL-Eに焦点を当てたいと思います。現在、最新バージョンのDALL-E 3がChatGPTに統合されており、自然言語の説明を入力して画像を生成できます。

マルチモダリティは、視覚、音声などの分野でも近年注目されています。視野内では、大型モデルは画像を生成するだけでなく、画像を見ることもできます。カルパシー氏は、OpenAIの共同設立者グレッグ・ブロックマン氏がMyJokeのウェブサイトから小さな手書き画像をChatGPTに見せたデモンストレーションを例に挙げた。その結果、ChatGPT は画像を理解し、MyJoke Web サイトを作成しました。このウェブサイトにアクセスしてジョークを見ることができます。

LLM の将来の発展について話すとき、カルパシー氏はシステム 1 とシステム 2 の思考パターンについて言及しました。システム 1 は高速で本能的、自動的な思考プロセスであり、システム 2 は意識的で思慮深い思考プロセスです。現在、人々は、システム 2 に似た思考能力をさらに LLM に導入することを望んでいます。さらに、LLMの自己啓発も注目すべき重要な課題の一つです。

最近、LLM のカスタマイズが話題になっています。 OpenAI の CEO である Sam Altman 氏が Developer Day で発表した GPT ストアは、モデルのカスタマイズに向けた第一歩です。ユーザーは独自の GPT を作成し、ニーズに合わせてカスタマイズしたり、知識を追加したりできます。将来的には、LLM を微調整してカスタマイズする可能性が高まっています。

LLM オペレーティングシステムは、現在の従来のオペレーティングシステムと多くの類似点があります。今後数年間で、LLM はテキストの読み取りと生成が可能になり、誰よりも多くの知識を持ち、インターネットを閲覧し、既存のソフトウェアインフラストラクチャを使用し、画像やビデオの表示と生成、音楽の聴取、制作と作曲、システム 2 を使用して深く考える能力、自己改善能力、独自のタスクに合わせて微調整とカスタマイズなどが可能になります。

3番目の部分はLLMセキュリティです。カルパシー氏は、ジェイルブレイク、プロンプトインジェクション、データポイズニングまたはバックドア攻撃という3つの攻撃方法について語った。

<<:

>>: Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた