偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。 写真 しかし、瞬く間に、新しいプロジェクトが GitHub で公開され、毎日何千ものスターを獲得しました。 写真 相変わらずおなじみのカードの方式: 大規模モデルのトークン化で一般的に使用される BPE (バイト ペア エンコーディング) アルゴリズムを処理し、アルゴリズムの最小かつ最もクリーンなコード バージョンを実装するための 74 行の Python コード。 平: 写真 約 30,000 個の星がある nanoGPT に少し似ているように感じますか? この波はネットユーザーに本当に推測させました:
結局のところ、カルパシー氏は、テスラ社の元AIディレクターやOpenAIの創設メンバーという肩書きに加え、ネットユーザーの間では「AI分野の偉大な慈善家」や「複雑な問題を単純化するのが得意なカルパシー先生」(犬の頭)として最もよく知られている。 BPE コードの最小化バージョン今回カルパティ先生がどんなご飯を作ったのか、詳しく見てみましょう。 写真 プロジェクト名 minbpe がすべてを物語っています。つまり、BPE アルゴリズムの最小かつ最もクリーンなコード バージョンです。 BPE (Byte Pair Encoding) は、GPT-2 で普及したトークン化アルゴリズムです。現在、GPT シリーズ、Llama シリーズ、Mistral を含む多くの大規模モデルがこのアルゴリズムを使用して単語セグメンテーションをトレーニングしています。 BPE の主な利点は次のとおりです。
minbpe プロジェクトでは、Karpathy は 2 つのトークナイザーを提供しており、どちらもトークナイザーの 3 つの主な機能を実行できます。
具体的には、basic.py では、minbpe は 74 行の Python コードを使用して、テキスト上で直接実行される BPE アルゴリズムの最も単純な実装を完了します。 写真 regex.py では、minbpe は正規表現を使用して入力テキストをさらに分割する正規表現トークナイザーを実装します。 さらに、正規表現トークナイザーに基づいて、minbpe は gpt4.py で GPT4Tokenizer も提供しており、オンライン tiktoken ライブラリの GPT-4 を正確にトークン化できます。 注: Tiktoken は高速な BPE トークナイザーです。 写真 base.py は、トレーニング、エンコード、デコード用のスタブが含まれ、保存および読み込み機能を提供し、いくつかの一般的な補助ツール機能を統合する基本クラスです。実際のアプリケーションでは、開発者はこの基本クラスを継承して特定の単語分割機能を実装する必要があります。 カルパシー氏は、テイラー・スウィフトのWikipediaテキストで2つの主要なトークナイザーのトレーニングを試みたと述べました。 train.py を M1 MacBook で実行すると約 25 秒かかります。 まだ質問がある場合は心配しないでください。Ka先生がビデオを公開する予定です。 写真 Karpathy 氏は OpenAI を去りましたが、彼の「次の章」は Large Language Model System (LLM OS) になるだろうと多くの人が推測しています。 写真 彼の正式な職業はまだ明らかにされていないが、カルパシーはすでに「人々を教え、教育する」という副業を始めているようなので、皆さんも始めることができるだろう。 参考リンク: https://github.com/karpathy/minbpe/ |
<<: GitHub ホットリスト 1 位: 数百万のトークン コンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作
>>: AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています
2020年はニュース速報に事欠かなかったが、人工知能は依然として包囲網を突破し、主流の視野に入り込...
2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...
翻訳者 | 李睿レビュー | Chonglou人工知能は現在、定量的研究などの分野におけるソフトウェ...
この記事では、まず初心者が知っておくべき機械学習 (ML) アルゴリズムのトップ 10 を紹介し、い...
スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...
背景と概要Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各...
AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...
[[329534]]古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com クイック翻訳] 機械学習とディープラーニング - 両者の類似点と相違点。人工...
百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...
オートメーション業界のベテランや経験豊富な電気機械エンジニアにとって、適切な「ロボット」を選択するこ...