カルパシーはOpenAIの内部闘争中にビデオを録画しました:大規模言語モデル入門がオンラインです

カルパシーはOpenAIの内部闘争中にビデオを録画しました:大規模言語モデル入門がオンラインです

OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。

今年初めに OpenAI に復帰した Andrej Karpathy 氏は最近、大規模言語モデル (LLM) に関する 30 分間の入門講義を行ったが、その講義は当時は録画されていなかった。そこで彼は、もっと多くの人が見て学べるよう、この講義に基づいた1時間のビデオを再録画した。

ビデオのテーマは「大規模言語モデルの概要」で、LLM の推論、トレーニング、微調整、そして新しい LLM オペレーティング システムと LLM セキュリティについて取り上げています。このビデオは主に「非技術的」で、より一般的な科学である傾向があるため、理解しやすいです。

さらに詳しい内容を知りたい場合は、元の動画をご覧ください。

カルパシー氏が何を話したか見てみましょう。ビデオは主に、LLM、LLM の将来、LLM の安全性の 3 つの部分に分かれています。

最初の部分では、Karpathy 氏がまず LLM の基礎知識を紹介し、Meta がリリースしたオープンソースの大型モデル Llama 2-70b を例に挙げました。このモデルには 700 億個のパラメータがあり、主にパラメータ ファイル (ファイル サイズは 140 GB) とこれらのパラメータを実行するコード (C 言語を例にとると、約 500 行のコードが必要) の 2 つのファイルで構成されています。

そのため、LLM の推論段階で、Karpathy 氏は、これら 2 つのファイルと MacBook だけで、インターネット接続やその他の設備を必要とせずにスタンドアロン システムを構築できると述べました。ここで彼は、70 億のパラメータを持つ大規模なモデルを実行する例を示しています。

LLM トレーニングは推論よりもはるかに複雑です。 Karpathy 氏は、モデル推論は MacBook でも実行できるが、モデルのトレーニング プロセスには膨大な計算量がかかる、と述べた。したがって、インターネット コンテンツを圧縮する必要があります。彼は Llama 2-70b を例に挙げ、モデルのトレーニングにはインターネットから約 10 TB のテキストをクロールする必要があり、約 12 日間のトレーニングに約 6,000 個の GPU が必要で、コストは 200 万ドル、パラメータ ファイルのサイズは約 140 GB であることを説明しました。

明らかに、Llama 2-70b は最大ではありません。ChatGPT、Claude、Bard をトレーニングすると、これらの数値は 10 倍以上に増加し、コストは数千万ドル、さらには数億ドルにまで高くなる可能性があります。

ただし、これらのパラメータを取得すれば、ニューラル ネットワークの実行にかかる計算コストは​​比較的低くなります。 Karpathy 氏は、ニューラル ネットワークとは何か、その基本的なタスクはシーケンス内の次の単語を予測することであると説明します。彼はトレーニング プロセスをインターネットの一種の圧縮と見なしており、次の単語を正確に予測できれば、それを使ってデータセットを圧縮できると考えています。

ニューラルネットワークはどのようにして次の単語を予測するのでしょうか? Karpathy 氏は、次の Transformer ニューラル ネットワーク アーキテクチャ図に示すように、1,000 億個のパラメーターがニューラル ネットワーク全体に分散されていると紹介しました。これには、ネットワーク全体が次の単語を予測するタスクをより適切に実行できるように、これらのパラメータを繰り返し調整する必要があります。

上記は事前トレーニングと呼ばれるトレーニングの最初の段階ですが、実際のアシスタント モデルをトレーニングするには明らかに不十分です。これは微調整の段階です。事前トレーニング段階では、インターネットからの大量のテキスト データが必要になりますが、その品質は必ずしも高くない可能性があります。ただし、微調整段階では、データの量ではなく質に重点が置かれます。たとえば、非常に高品質の会話ドキュメントが必要になります。

Karpathy は、独自の ChatGPT をトレーニングする方法をまとめています。事前トレーニング段階では基本モデルを取得し、微調整段階ではラベル指示の作成、高品質の QA 応答の収集を行う人材の雇用、基本モデルのさらなる微調整、多数の評価の実施、および展開が必要になります。

パート 2 では、LLM スケーリング ルール、ツールの使用、マルチモダリティ、思考とシステム 1/2、自己改善と LLM AlphaGo、LLM カスタマイズ、GPT ストア、LLM オペレーティング システムなど、LLM の将来について説明します。

いわゆる LLM スケーリング則とは、LLM のパフォーマンスが、ネットワーク内のパラメータ数 (N) とトレーニングするテキストの量 (D) という 2 つの変数の非常にスムーズで、動作が適切で、予測可能な関数として表現できることを意味します。これら 2 つの変数をスケーリングすることで、次の単語予測タスクの精度を予測できます。

使用されたツールについては、Karpathy 氏はブラウザ、計算機、インタープリタ、DALL-E を挙げました。ここではOpenAIが開発したテキストグラフツールであるDALL-Eに焦点を当てたいと思います。現在、最新バージョンのDALL-E 3がChatGPTに統合されており、自然言語の説明を入力して画像を生成できます。

マルチモダリティは、視覚、音声などの分野でも近年注目されています。視野内では、大型モデルは画像を生成するだけでなく、画像を見ることもできます。カルパシー氏は、OpenAIの共同設立者グレッグ・ブロックマン氏がMyJokeのウェブサイトから小さな手書き画像をChatGPTに見せたデモンストレーションを例に挙げた。その結果、ChatGPT は画像を理解し、MyJoke Web サイトを作成しました。このウェブサイトにアクセスしてジョークを見ることができます。

LLM の将来の発展について話すとき、カルパシー氏はシステム 1 とシステム 2 の思考パターンについて言及しました。システム 1 は高速で本能的、自動的な思考プロセスであり、システム 2 は意識的で思慮深い思考プロセスです。現在、人々は、システム 2 に似た思考能力をさらに LLM に導入することを望んでいます。さらに、LLMの自己啓発も注目すべき重要な課題の一つです。

最近、LLM のカスタマイズが話題になっています。 OpenAI の CEO である Sam Altman 氏が Developer Day で発表した GPT ストアは、モデルのカスタマイズに向けた第一歩です。ユーザーは独自の GPT を作成し、ニーズに合わせてカスタマイズしたり、知識を追加したりできます。将来的には、LLM を微調整してカスタマイズする可能性が高まっています。

LLM オペレーティング システムは、現在の従来のオペレーティング システムと多くの類似点があります。今後数年間で、LLM はテキストの読み取りと生成が可能になり、誰よりも多くの知識を持ち、インターネットを閲覧し、既存のソフトウェア インフラストラクチャを使用し、画像やビデオの表示と生成、音楽の聴取、制作と作曲、システム 2 を使用して深く考える能力、自己改善能力、独自のタスクに合わせて微調整とカスタマイズなどが可能になります。

3番目の部分はLLMセキュリティです。カルパシー氏は、ジェイルブレイク、プロンプトインジェクション、データポイズニングまたはバックドア攻撃という3つの攻撃方法について語った。

<<: 

>>:  Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

投資家心理は安定しており、人工知能への資金流入は続いている

[[274634]] 2019 年の秋が近づき、最初の 2 四半期が終了しようとしている今、今年前半...

アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...

...

SaaS アプリケーションで AI スノーボールはどのように大きくなるのでしょうか?

Shopify の不正防止機械学習から Salesforce の Einstein まで、過去数年...

...

毎日のアルゴリズム: 回転マトリックス

[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...

無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...

あなたのキャリアはAIの影響を受けますか?

[[277927]] [51CTO.com クイック翻訳] 今日、私たちは日常生活や仕事を実現する...

危険すぎる。Google は過去 12 年間、いまだにこれを公表しようとしない。

ボビー・アリン編纂者 | Yan Zheng幸いなことに、Google はこの技術を公開しませんでし...

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論...

NLP技術の準備——自然言語処理技術はあなたの妻ではありません

人工知能技術の発展に伴い、携帯電話の翻訳ソフトを使って自分の言語をリアルタイムで翻訳したり、画像認識...