Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。

新しいプロジェクトが開始されるとすぐに、全員向けの新しい教育ビデオが公開されました。

今回は、 GPT Tokenizerの構築方法を段階的に説明します所要時間もおなじみのものです(合計 2 時間 13 分)

P.S. 私が最後に講義したのは2か月前で、大規模モデル科学についてでした。

諺にあるように、 「カパシが行動を起こすとき、それは傑作に違いない」。全員がすぐに次のように入力した。

今夜のデートはキャンセル。カパシが来て授業に行かないといけないから(犬の頭)

もう一度言いますが、これはお金を払っても買えないような質の高いコースです。ぜひ受講してください。

具体的な役立つ情報は何ですか?

皆様のために「長すぎて読めないバージョン」もご用意しました。

Tokenizer に注目する必要があるのはなぜですか?

偉大なる神が紹介されたように:

トークナイザーは、大規模な言語モデル パイプライン内の完全に独立したステージです。

独自のトレーニング セット、アルゴリズム(BPE、バイト ペア エンコーディングなど)があり、トレーニング後に次の 2 つの関数を実装します。
文字列からトークンにエンコードし、トークンから文字列にデコードします。

なぜそれを気にする必要があるのでしょうか?

カパシ氏は次のように指摘した。

LLM における多くの奇妙な動作や問題は、これに起因している可能性があるからです。

例えば:

  • 大規模なモデルでは、反転などの単純な文字列処理タスクを処理できないのはなぜですか?
  • 大規模モデルは英語以外の言語のタスクではパフォーマンスが低下するのはなぜですか?
  • 大規模モデルはなぜ単純な計算が苦手なのでしょうか?
  • 文字列「」を見た後、モデルが突然「クラッシュ」するのはなぜですか?
  • 大規模モデルが実際にはエンドツーエンドの言語モデリングではないのはなぜですか?

そこで、これらの問題を明らかにするために、今日の講座を開催します。ただし、マスター自身はこの部分の内容をあまり気に入っていません。

この授業を受ける皆さんは、授業を通して私の表情がとても真剣であることに気づくでしょう。ただし、細かい部分は非常に重要なので(ご容赦ください)

以下はビデオの主な内容のテキストバージョンです。

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

ビデオの冒頭では、主にいくつかのトークナイザーを紹介しています。

これには、最も単純な文字レベルのセグメンテーション操作(つまり、各文字がトークン)と、より複雑で一般的に使用されるチャンクレベルの操作(つまり、複数の文字もトークンを形成する)が含まれます。

その中でも、業界で最も一般的に使用されているアルゴリズムは BPE、つまりバイトペアエンコーディングです。そのため、独自の単語セグメンテーションを構築する場合、最も重要なことはこのアルゴリズムを理解することです。

カパシの紹介:

BPE は英語以外の言語をより適切に処理し、語彙のサイズを調整できるため、モデルのパフォーマンスに大きな影響を与えます。

たとえば、GPT-4 トークナイザーは BPE アルゴリズムを改善し、複数のスペースを 1 つのトークンにマージできるため、シーケンスの長さが短縮され、モデルがより長くより多くのコードに集中できるようになるため、最終的には Python コードの処理がより効率的になります。

BPE アルゴリズムは UTF-8 でエンコードされたバイト シーケンスを処理できますが、これらのシーケンスを直接使用すると、語彙が大きくなりすぎ、シーケンスが長くなりすぎ、モデルの注意メカニズムとコンテキストの長さに影響するため、圧縮処理が必要になることに注意してください。

BPE アルゴリズムを理解した後、独自の単語セグメンターを構築するにはどうすればよいでしょうか?

簡単に言えば、主に次の手順が含まれます。

1.語彙を初期化する

UTF-8 でエンコードされたバイトに基づきます。

2. バイトペアをマージし、語彙サイズが事前設定された値に達するまで反復する

実際のデモンストレーションでは、Kapathy は 20 回のマージを通じてテキスト内のトークンの数を約 27% 削減しました。

3. 特殊文字や異なる言語の文字の扱い

4. 全体の最適化

語彙が大きすぎるとモデルのトレーニングが困難になる可能性があり、語彙が小さすぎると言語の詳細を十分に捉えられない可能性があります。

5. トレーニング用に豊富な言語機能を備えたデータセットを選択する

ここで、Kapasi 氏は、今日言及した BPE を含む複数の単語分割アルゴリズムをサポートする SentencePiece ライブラリについて言及しました。

これを使用して、構成オプションや珍しい文字の処理方法など、トークナイザーをトレーニングできます。

トレーニングされた単語セグメンターは、テキストのエンコードとデコードにも使用されます。

6. 最後のステップは、評価とモデルへの統合です。

もちろん、モデルのパフォーマンスに基づいて継続的に調整する必要があります。

各ステップについて、マスターは、最も頻繁なバイトペアを見つける方法、これらのペアをマージする方法、マージされた辞書を構築する方法など、詳細な Python 実装を提供しています。詳細については、ビデオを参照してください。

その中で、カパシは次のような詳細も思い出しました。

デコード処理中に無効な UTF-8 バイト シーケンスが発生した場合は、「errors='replace'」を使用してそれらを置き換えることができます。また、「テキストの終了」特殊マーカーを使用してトレーニング データ内のドキュメントを区切ることもできます。

実際はこれよりずっと複雑です

Kapasi が実装したものは、単語セグメンターの比較的基本的なバージョンであることは間違いありません。実際のモデルはこれよりもはるかに複雑です。

たとえば、OpenAI が公式に提供している BPE 単語セグメンターtiktokenなどです。

正規表現を使用してテキストを分割し、特定の種類の文字が結合されないようにします。 GPT-2 では、いくつかの面で優れたパフォーマンスを発揮します。

GPT-4に関しては、公式もいくつかの調整を加えました。

主な変更点は次のとおりです。

  1. GPT-4 はスペースを結合します。
  2. 大文字と小文字は区別されません。
  3. GPT-4 は最大 3 桁のみを結合し、長い数値シーケンス トークンを回避します。

しかし、当局は具体的な訓練内容を明らかにしていないため、その詳細な実施内容は知る由もない。

より複雑なアルゴリズムに加えて、トークナイザー自体も長い文字列、英語以外の言語、数字、特殊文字に関して問題が発生する可能性があります。

そのため、すべての話し合いが終わった後も、マスターはビデオの中で「単純な願い」を表明しました。

いつの日か、単語の分割を必要とせずにバイト ストリームを言語モデルに直接入力できるようになることを心から願っています。

ただし、これには Transformer アーキテクチャに大幅な変更を加える必要があるため、現段階では、単語セグメンターの構築と最適化が、効率的な大規模モデルを実現するための重要なステップとなります。

動画の全編は、 https://weibo.com/6105753431/O1BQB96Ygをご覧ください。

<<:  LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

>>:  OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

ブログ    
ブログ    

推薦する

将来人工知能に置き換えられる可能性が最も低い10の仕事

人工知能(AI)の急速な発展は人々の生活に便利さをもたらしたが、労働市場には大きな変化をもたらすだろ...

ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

6月23日、オーストラリアの量子コンピューティング企業SQC(Silicon Quantum Com...

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ...

AIが地震の前兆信号を識別?機械学習がデータ内の不思議な相関関係を発見、人類に地震予測の希望を与える

最近、世界中で地震が頻繁に発生しています。 1月1日、突然、マグニチュード7.6の地震が日本を襲い、...

最もよく使われる機械学習アルゴリズムのトップ10を簡単に理解する

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...

最高裁:ビジネス施設での顔認識の乱用は侵害である

今年のCCTV 315ガラで、 CCTVは全国20以上の有名店が顔認識カメラを設置し、顧客の顔認識情...

...

Google の大きな動き!新しくリリースされた Cloud AutoML により、コードを書かずに AI トレーニングを完全自動化

これは大問題だ! Google が大きな動きを見せました!昨日、フェイフェイ・リーとジェフ・ディーン...

AIシミュレーターが物理シミュレーションで新たなSOTAを達成!

機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...

ジェネレーティブ AI がクラウド セキュリティにもたらす変化

クラウド セキュリティと人工知能には長年にわたる関係があります。ほぼ 10 年にわたり、AI はパタ...

エンティティ認識と関係抽出におけるディープラーニングの応用に関する簡単な分析

1. 固有表現認識名前付きエンティティ認識 (NER) は、次の図に示すように、自然言語テキストから...

GameGPT: AI によるゲーム開発の自動化

翻訳者 |ブガッティレビュー | Chonglou最近のゲーム開発の仕事は綱渡りのようなものです。ゲ...

...

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発による...

人工知能は人々の日常の職業生活をどのように変えているのでしょうか?

[[280560]]世界が急速に発展する中、専門家は生産性と仕事の効率性の向上に努めなければなりま...