Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。

新しいプロジェクトが開始されるとすぐに、全員向けの新しい教育ビデオが公開されました。

今回は、 GPT Tokenizerの構築方法を段階的に説明します。所要時間もおなじみのものです(合計 2 時間 13 分) 。

P.S. 私が最後に講義したのは2か月前で、大規模モデル科学についてでした。

諺にあるように、 「カパシが行動を起こすとき、それは傑作に違いない」。全員がすぐに次のように入力した。

今夜のデートはキャンセル。カパシが来て授業に行かないといけないから（犬の頭）

もう一度言いますが、これはお金を払っても買えないような質の高いコースです。ぜひ受講してください。

具体的な役立つ情報は何ですか?

皆様のために「長すぎて読めないバージョン」もご用意しました。

Tokenizer に注目する必要があるのはなぜですか?

偉大なる神が紹介されたように:

トークナイザーは、大規模な言語モデルパイプライン内の完全に独立したステージです。

独自のトレーニングセット、アルゴリズム(BPE、バイトペアエンコーディングなど)があり、トレーニング後に次の 2 つの関数を実装します。
文字列からトークンにエンコードし、トークンから文字列にデコードします。

なぜそれを気にする必要があるのでしょうか?

カパシ氏は次のように指摘した。

LLM における多くの奇妙な動作や問題は、これに起因している可能性があるからです。

例えば：

大規模なモデルでは、反転などの単純な文字列処理タスクを処理できないのはなぜですか?
大規模モデルは英語以外の言語のタスクではパフォーマンスが低下するのはなぜですか?
大規模モデルはなぜ単純な計算が苦手なのでしょうか?
文字列「」を見た後、モデルが突然「クラッシュ」するのはなぜですか?
大規模モデルが実際にはエンドツーエンドの言語モデリングではないのはなぜですか?
…

そこで、これらの問題を明らかにするために、今日の講座を開催します。ただし、マスター自身はこの部分の内容をあまり気に入っていません。

この授業を受ける皆さんは、授業を通して私の表情がとても真剣であることに気づくでしょう。ただし、細かい部分は非常に重要なので（ご容赦ください）。

以下はビデオの主な内容のテキストバージョンです。

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

ビデオの冒頭では、主にいくつかのトークナイザーを紹介しています。

これには、最も単純な文字レベルのセグメンテーション操作(つまり、各文字がトークン)と、より複雑で一般的に使用されるチャンクレベルの操作(つまり、複数の文字もトークンを形成する)が含まれます。

その中でも、業界で最も一般的に使用されているアルゴリズムは BPE、つまりバイトペアエンコーディングです。そのため、独自の単語セグメンテーションを構築する場合、最も重要なことはこのアルゴリズムを理解することです。

カパシの紹介:

BPE は英語以外の言語をより適切に処理し、語彙のサイズを調整できるため、モデルのパフォーマンスに大きな影響を与えます。

たとえば、GPT-4 トークナイザーは BPE アルゴリズムを改善し、複数のスペースを 1 つのトークンにマージできるため、シーケンスの長さが短縮され、モデルがより長くより多くのコードに集中できるようになるため、最終的には Python コードの処理がより効率的になります。

BPE アルゴリズムは UTF-8 でエンコードされたバイトシーケンスを処理できますが、これらのシーケンスを直接使用すると、語彙が大きくなりすぎ、シーケンスが長くなりすぎ、モデルの注意メカニズムとコンテキストの長さに影響するため、圧縮処理が必要になることに注意してください。

BPE アルゴリズムを理解した後、独自の単語セグメンターを構築するにはどうすればよいでしょうか?

簡単に言えば、主に次の手順が含まれます。

1.語彙を初期化する

UTF-8 でエンコードされたバイトに基づきます。

2. バイトペアをマージし、語彙サイズが事前設定された値に達するまで反復する

実際のデモンストレーションでは、Kapathy は 20 回のマージを通じてテキスト内のトークンの数を約 27% 削減しました。

3. 特殊文字や異なる言語の文字の扱い

4. 全体の最適化

語彙が大きすぎるとモデルのトレーニングが困難になる可能性があり、語彙が小さすぎると言語の詳細を十分に捉えられない可能性があります。

5. トレーニング用に豊富な言語機能を備えたデータセットを選択する

ここで、Kapasi 氏は、今日言及した BPE を含む複数の単語分割アルゴリズムをサポートする SentencePiece ライブラリについて言及しました。

これを使用して、構成オプションや珍しい文字の処理方法など、トークナイザーをトレーニングできます。

トレーニングされた単語セグメンターは、テキストのエンコードとデコードにも使用されます。

6. 最後のステップは、評価とモデルへの統合です。

もちろん、モデルのパフォーマンスに基づいて継続的に調整する必要があります。

各ステップについて、マスターは、最も頻繁なバイトペアを見つける方法、これらのペアをマージする方法、マージされた辞書を構築する方法など、詳細な Python 実装を提供しています。詳細については、ビデオを参照してください。

その中で、カパシは次のような詳細も思い出しました。

デコード処理中に無効な UTF-8 バイトシーケンスが発生した場合は、「errors='replace'」を使用してそれらを置き換えることができます。また、「テキストの終了」特殊マーカーを使用してトレーニングデータ内のドキュメントを区切ることもできます。

実際はこれよりずっと複雑です

Kapasi が実装したものは、単語セグメンターの比較的基本的なバージョンであることは間違いありません。実際のモデルはこれよりもはるかに複雑です。

たとえば、OpenAI が公式に提供している BPE 単語セグメンターtiktokenなどです。

正規表現を使用してテキストを分割し、特定の種類の文字が結合されないようにします。 GPT-2 では、いくつかの面で優れたパフォーマンスを発揮します。

GPT-4に関しては、公式もいくつかの調整を加えました。

主な変更点は次のとおりです。

GPT-4 はスペースを結合します。
大文字と小文字は区別されません。
GPT-4 は最大 3 桁のみを結合し、長い数値シーケンストークンを回避します。

しかし、当局は具体的な訓練内容を明らかにしていないため、その詳細な実施内容は知る由もない。

より複雑なアルゴリズムに加えて、トークナイザー自体も長い文字列、英語以外の言語、数字、特殊文字に関して問題が発生する可能性があります。

そのため、すべての話し合いが終わった後も、マスターはビデオの中で「単純な願い」を表明しました。

いつの日か、単語の分割を必要とせずにバイトストリームを言語モデルに直接入力できるようになることを心から願っています。

ただし、これには Transformer アーキテクチャに大幅な変更を加える必要があるため、現段階では、単語セグメンターの構築と最適化が、効率的な大規模モデルを実現するための重要なステップとなります。

動画の全編は、 https://weibo.com/6105753431/O1BQB96Ygをご覧ください。

<<: LIama2を運営して8400万元稼ごう！最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

>>: OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

ブログ

DeepMindの「フィッシングエンフォースメント」：AIに間違った発言をさせ、数万件の危険な発言を発見させる

ブログ

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

Tokenizer に注目する必要があるのはなぜですか?

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

実際はこれよりずっと複雑です

DeepMindの「フィッシングエンフォースメント」：AIに間違った発言をさせ、数万件の危険な発言を発見させる

調査によると、経営幹部はAIが職務記述書を時代遅れにしていると考えている

Googleの人工知能研究所DeepMindがカナダで研究者を募集

効率的で正確な通関手続きのニーズを満たすために、生体認証技術がセキュリティ検査シナリオに導入されています。

cnBeta は、開発者が AI アプリケーションを構築するのに役立つ 3 つの新しい機械学習ツールをリリースしました。

スマートイメージセンサー業界の過去と現在を1つの記事で理解する

推薦する

人工知能はドローンの将来にどのような影響を与えるのでしょうか?

ニッチから人気へ: 世界的な AI イノベーションが「ソフト」になった理由

マイクロソフトは、Power Platform 向け Copilot サービスの開始を正式に発表しました。これにより、AI によるアプリ開発が一文で可能になります。

eMule プロトコルの DHT アルゴリズム

MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

ViTと競合するDeepMindは、スパースモデルからソフト混合エキスパートモデルに移行

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング：目が学習し、手がそれに従う

HKU がオープンソースの推奨システムの新しいパラダイム RLMRec を公開!ユーザー/製品のテキストポートレートを正確に抽出するための大規模なモデルサポート

人工知能が人間の仕事の6%を奪い、置き換える可能性がある

ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

AmazonのAI研究開発はファッショントレンドをリードするために異なるアプローチを採用しています