じっとしていられないアンドレイ・カルパティに新しいプロジェクトが! OpenAIはここ数日、非常に忙しい。まずAI界の巨人、アンドレイ・カルパシー氏が正式に辞任を発表し、その後、動画生成モデルSoraがAI界を揺るがした。 カルパシー氏はOpenAIからの退社を発表した後、「今週は休暇を取る」とツイートした。 画像出典: https://twitter.com/karpathy/status/1757986972512239665 この何もすることがない状態は、マスク氏も羨むほどです(私も羨ましいです)。 しかし、もし本当にカルパシーが怠惰になると考えているなら、あなたは少し「若すぎるし、海軍すぎる」のです。 現在、鋭い目を持つネットユーザーが、Karpathy 氏の新しいプロジェクトminbpe を発見しました。これは、LLM 単語分割で一般的に使用される BPE (バイトペアエンコーディング) アルゴリズム用の最小限かつクリーンで教育的なコードを作成することに専念しています。 わずか 1 日で、プロジェクトの GitHub スターが 1.2k に達しました。 画像出典: https://twitter.com/ZainHasan6/status/1758727767204495367 誰かが、カルパシーがみんなのために「豪華な食事を作った」ことを示すために写真をフォトショップで加工した。 画像出典: https://twitter.com/andrewcyu/status/1758897928385561069 カルパティが戻ってきたと歓声を上げる人もいた。 画像出典: https://twitter.com/fouriergalois/status/1758775281391677477 「minbpe」プロジェクトが具体的に何について語っているのか見てみましょう。 プロジェクト紹介GitHub アドレス: https://github.com/karpathy/minbpe BPE アルゴリズムは「バイトレベル」であり、UTF-8 でエンコードされた文字列で動作することがわかっています。このアルゴリズムは、GPT-2 論文と GPT-2 関連コードを通じて、大規模言語モデル (LLM) で一般化されました。 現在、すべての最新の LLM (GPT、Llama、Mistral など) は、トークナイザーのトレーニングに BPE アルゴリズムを使用しています。 Karpathy の minbpe プロジェクト リポジトリには 2 つのトークナイザーが用意されており、どちらもトークナイザーの 3 つの主な機能 (1) トークナイザー語彙のトレーニングと指定されたテキストとのマージ、2) テキストからトークンへのエンコード、3) トークンからテキストへのデコードを実行できます。 詳細なリポジトリ ファイルは次のとおりです。
スクリプト train.py は、入力テキスト tests/taylorswift.txt で 2 つの主要なトークナイザーをトレーニングし、視覚化のために語彙をディスクに保存します。 Karpathy 氏は、このスクリプトを MacBook (M1) で実行すると約 25 秒かかると述べました。 カルパシー氏はまた、すべての文書が非常に短く、よく注釈が付けられており、使用例も含まれていると述べた。以下は、BPE の Wikipedia 記事からの再現例です。 また、GPT4Tokenizer の実装方法と Tiktoken との比較についても説明します。 もちろん、Karpathy 氏は GitHub プロジェクトを立ち上げるだけでは満足せず、ビデオもすぐに公開する予定だと述べています。 |
>>: AIシミュレーターが物理シミュレーションで新たなSOTAを達成!
人間の生活様式はここ数十年で大きく変化し、リモートおよび自動化されたプロセスの必要性が浮き彫りになり...
世界保健機関によれば、毎年80万人が自殺で亡くなっている。 この数字は年々高いままですが、人工知能と...
[[264976]] [画像出典: Microsoft Research ブログ 所有者: Micr...
電卓が普及した後、そろばんの使い方しか知らなかった会計士は失業した。ゴールドマン・サックスは最盛期に...
長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...
翻訳者 |陳俊レビュー | Chonglou OpenAIがもたらしたGPT-4が、世界で最も人気が...
Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...
上海で開催されたHUAWEI CONNECT 2019で、ファーウェイはエンタープライズサービス開発...
Huawei Pangu シリーズが建築に革新をもたらします! Quantum位は、Huawei ...
2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...
芸術作品の分類と分析は難しいことで知られており、ごく少数の専門家だけが発言権を持ち、この分野への人工...