業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られています。これには、モデル自体の研究開発だけでなく、クラウドでこれらのモデルを実行するコストも含まれます。人工知能のスタートアップ企業 Anthropic を例に挙げてみましょう。クラウドでモデルを実行するコストは、モデルのトレーニングコストを除いて、先月の同社の収益のほぼ半分を占めました。

しかし、最近の技術の進歩により、大規模な言語モデルの開発と実行にかかるコストが削減される見込みです。これが大規模な言語モデル開発を高利益率のソフトウェアビジネスに変えるには十分かどうかは明らかではありませんが、最も差し迫ったコスト問題の多くを軽減するのに役立つはずです。

企業向け AI ツールを開発するスタートアップ企業 Writer を例に挙げましょう。同社の共同創業者兼最高技術責任者のワシーム・アルシク氏は、エヌビディアのA100 GPUなど一部の旧型AIチップの価格下落により、過去3~4カ月でモデルのトレーニングコストを約60%削減できたと述べた。さらに、Nvidia はソフトウェア パフォーマンスを最適化し、開発者がこれらのチップ上で大規模なモデルをより速くトレーニングおよび実行できるようにしました。

しかし同時に、クラウド コンピューティング サービス プロバイダーがさらに多くの H100 チップをリリースしたため、Writer は大規模な言語モデルのトレーニングにさらに多くの新しい Nvidia チップを使用するようになりました。アルシェイク氏は、これらの新しいチップは高価だが、モデルのトレーニングでは A100 よりも高速であると指摘した。

開発者はコストを削減するために、さまざまな新しいトレーニング手法や構成も活用しています。 GPT-4 のような大規模な言語モデルは、実際には 1 つの巨大なモデルではなく、それぞれが異なるトピックに特化した複数の「エキスパート」モデルで構成されています。このエキスパートの組み合わせ (MoE または ME) は、クエリがモデル全体ではなくモデルの特定の部分のみをトリガーするため、計算効率が高くなります。

量子化や大規模言語モデルの低次適応などの他の技術により、モデルのパフォーマンスへの影響を最小限に抑えながら、モデルのトレーニングと調整を低コストで行うことができます。

大規模な言語モデルの開発者は、ハードウェアをより効率的に使用する方法も見つけました。 Google の研究者は、GPT-3 のトレーニング中、OpenAI の GPU はデータが入力されるのを待って、約 80% の時間アイドル状態だったと推定しています。つまり、GPU リソースを十分に活用していないことになります。しかし、GPU ディストリビューター Together の主任科学者 Tri Dao 氏は、FlashAttention-2 と呼ばれる別の技術を使用することで、アイドル時間を約 30% 削減できると述べています。フランスの人工知能スタートアップ企業ミストラルを含む多くの開発者がすでにこの技術を活用し始めている。

AI 開発者はコストを削減するために多くのツールを利用できますが、それがすべて使用されているわけではありません。 OpenAIやAnthropicなどの最先端モデルの開発者は、優れたチップ、人材、データリソースを追求しているため、利益率の目標を一時的に保留する可能性があります。

たとえば、Facebook の親会社 Meta の CEO であるマーク・ザッカーバーグ氏は、同社が年末までに 35,000 台の H100 GPU を取得する計画 (総額 70 億ドル以上) を発表しました。これは、たとえ古い GPU の方が手頃な価格であっても、強力な企業は最先端のチップを購入するために多額の費用を費やす用意があることを示しています。

さらに、大規模な言語モデルをトレーニングするために新しいデータを取得するコストも無視してはなりません。 OpenAIやAppleのような企業が出版社からコンテンツのライセンスを取得するために支払う料金は、些細なことのように思えるかもしれないが、将来的には劇的に増加する可能性がある。大規模言語モデルは徐々に新しいモデルのための「合成」トレーニング データを生成していますが、再現できない高品質な情報がまだたくさんあります。

<<:  ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

>>:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

ブログ    

推薦する

統合はテクノロジー分野で強力なトレンドとなるだろう

人工知能、エッジ コンピューティング、移動中のデータの統合は、業界を変革し、コンピューティング シス...

猫とチャットできるようになりました!生成型AIがもたらす包括的な革命:5年以内に初の動物言語を解読

ソロモンが動物とコミュニケーションをとることができたのは、魔法のアイテムを持っていたからではなく、観...

Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

産業インテリジェンスの急速かつ徹底的な進歩に伴い、人工知能インフラの構築は不可欠となっています。 5...

...

AIが悪になる危険性を排除する方法

AI テクノロジーを悪とみなす個人、政府、企業が増えるにつれ、AI が善良な存在であることを保証する...

...

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

世界の潮流は力強く前進しています。科学研究​​と探究のペースを止めれば、井戸の中で空を眺め、満足して...

自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

データ構造とアルゴリズム: 同型文字列

[[441407]]同型文字列LeetCode の質問へのリンク: https://leetcode...

D2C フロントエンド インテリジェンスは「がん」か「特効薬」か?

フロントエンド インテリジェンスには、その名前が示すように、「フロントエンド」と「インテリジェンス」...

...

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

「新インフラ」は中国の「産業インテリジェンス」に強力な新たな原動力をもたらした。インテリジェント時...