実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

背景

今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的な言語モデルをトレーニングするには、膨大なコンピューティング リソースと時間が必要です。しかし、これは多くの人にとって現実的ではありません。同時に、特にエッジデバイス上で、限られたメモリとコンピューティング リソースで大規模な言語モデルをどのように使用するかという課題にも直面しています。

今日は、GitHub のオープンソース プロジェクト jzhang38/TinyLlama をお勧めしたいと思います。このプロジェクトは、GitHub で 4.3k を超えるスターを獲得しています。このプロジェクトは、1 文で紹介できます。「TinyLlama プロジェクトは、3 兆個のトークンで 11 億個の Llama モデルを事前トレーニングするオープンな取り組みです。」

プロジェクト紹介

TinyLlama は、3 兆個のトークンで 11 億個の Llama モデルを事前トレーニングすることを目指しています。適切な最適化により、16 個の A100-40G GPU を使用してわずか 90 日でこの目標を達成することができました。このプロジェクトは、Llama 2 とまったく同じアーキテクチャとトークナイザーを使用しているため、TinyLlama をプラグインして、多くのオープンソースの Llama ベースのプロジェクトに使用することができます。さらに、TinyLlama はパラメータが 11 億個しかないため、非常にコンパクトです。このコンパクトさにより、計算とメモリのフットプリントを制限する必要がある多くのアプリケーションに適しています。

使い方

モデルを直接ダウンロードして使用することも、huggingface を通じてデモを使用することもできます。

ご自身でトレーニングをご希望の場合は、以下のトレーニング詳細をご参照ください。

プロジェクト推進

TinyLlama は、いくつかの重大な問題を積極的に解決しており、オープンソース コミュニティで大きな注目を集めている、エキサイティングなオープンソース プロジェクトです。

以下は、プロジェクトのスタートレンドチャートです(プロジェクトのアクティビティを表します)。

プロジェクトの詳細については、以下のリンクをご覧ください。

オープンソースプロジェクトのアドレス: https://github.com/jzhang38/TinyLlama

オープンソース プロジェクト作成者: jzhang38

プロジェクト構築に関わるメンバーは以下の通りです。

<<:  人工知能が診断ツールをどのように変えるのか

>>:  見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

ブログ    
ブログ    

推薦する

...

ニューラルシンボリックシステム、学際的相互作用、李飛飛と他の16人の学者がAIの未来について議論する

昨年、ニューヨーク大学の心理学および神経科学の教授であるゲイリー・マーカス氏と、ディープラーニングの...

...

ロボットと一緒に働くのはどんな感じでしょうか?

[[206343]]アメリカの企業では、多数のロボットを使って働くことが当たり前になっている。ここ...

小売業における人工知能

[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

「バンカーズアルゴリズム」の秘密が明らかに!フロントエンド テーブルでカスタム数式を使用して「偶数に丸める」

銀行の収益モデルとは何でしょうか? 3 つの言葉: 情報の非対称性です。銀行は預金者から資金を集めて...

Huang 氏の最新インタビュー: 30 年前に戻れるなら、私は NVIDIA を立ち上げることはなかったでしょう!

ベルサイユの中国人起業家サークルに、ジェンセン・フアンというもう一人の大物が加わった。最近の公開イン...

...

人間の生理学的パラメータのモニタリング分野に焦点を当て、Pulse Geekはウェアラブルでこの分野に参入し、AIを活用して心臓の守護者となる

近年、人工知能技術は、医療、金融、小売、教育、その他のサブ産業を含む多くの垂直分野に応用されています...

...

GANを別の視点から見る: 別の損失関数

ジェレミー・ハワード氏はかつて、Generative Adversarial Network (GA...

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

「大リーク:コードネームStubbsというGoogleの謎のAIツールが暴露された」と、Xという名の...

スマート街灯は明るく光るが、スマート街灯柱には隠された秘密があることが判明

[51CTO.comよりオリジナル記事] 近年、都市化の急速な発展に伴い、中国の都市の街灯の数はます...

ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

[[438709]]大規模なコーパスでトレーニングされた Transformer モデルは、自然言...