業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られています。これには、モデル自体の研究開発だけでなく、クラウドでこれらのモデルを実行するコストも含まれます。人工知能のスタートアップ企業 Anthropic を例に挙げてみましょう。クラウドでモデルを実行するコストは、モデルのトレーニングコストを除いて、先月の同社の収益のほぼ半分を占めました。

しかし、最近の技術の進歩により、大規模な言語モデルの開発と実行にかかるコストが削減される見込みです。これが大規模な言語モデル開発を高利益率のソフトウェアビジネスに変えるには十分かどうかは明らかではありませんが、最も差し迫ったコスト問題の多くを軽減するのに役立つはずです。

企業向け AI ツールを開発するスタートアップ企業 Writer を例に挙げましょう。同社の共同創業者兼最高技術責任者のワシーム・アルシク氏は、エヌビディアのA100 GPUなど一部の旧型AIチップの価格下落により、過去3~4カ月でモデルのトレーニングコストを約60%削減できたと述べた。さらに、Nvidia はソフトウェア パフォーマンスを最適化し、開発者がこれらのチップ上で大規模なモデルをより速くトレーニングおよび実行できるようにしました。

しかし同時に、クラウド コンピューティング サービス プロバイダーがさらに多くの H100 チップをリリースしたため、Writer は大規模な言語モデルのトレーニングにさらに多くの新しい Nvidia チップを使用するようになりました。アルシェイク氏は、これらの新しいチップは高価だが、モデルのトレーニングでは A100 よりも高速であると指摘した。

開発者はコストを削減するために、さまざまな新しいトレーニング手法や構成も活用しています。 GPT-4 のような大規模な言語モデルは、実際には 1 つの巨大なモデルではなく、それぞれが異なるトピックに特化した複数の「エキスパート」モデルで構成されています。このエキスパートの組み合わせ (MoE または ME) は、クエリがモデル全体ではなくモデルの特定の部分のみをトリガーするため、計算効率が高くなります。

量子化や大規模言語モデルの低次適応などの他の技術により、モデルのパフォーマンスへの影響を最小限に抑えながら、モデルのトレーニングと調整を低コストで行うことができます。

大規模な言語モデルの開発者は、ハードウェアをより効率的に使用する方法も見つけました。 Google の研究者は、GPT-3 のトレーニング中、OpenAI の GPU はデータが入力されるのを待って、約 80% の時間アイドル状態だったと推定しています。つまり、GPU リソースを十分に活用していないことになります。しかし、GPU ディストリビューター Together の主任科学者 Tri Dao 氏は、FlashAttention-2 と呼ばれる別の技術を使用することで、アイドル時間を約 30% 削減できると述べています。フランスの人工知能スタートアップ企業ミストラルを含む多くの開発者がすでにこの技術を活用し始めている。

AI 開発者はコストを削減するために多くのツールを利用できますが、それがすべて使用されているわけではありません。 OpenAIやAnthropicなどの最先端モデルの開発者は、優れたチップ、人材、データリソースを追求しているため、利益率の目標を一時的に保留する可能性があります。

たとえば、Facebook の親会社 Meta の CEO であるマーク・ザッカーバーグ氏は、同社が年末までに 35,000 台の H100 GPU を取得する計画 (総額 70 億ドル以上) を発表しました。これは、たとえ古い GPU の方が手頃な価格であっても、強力な企業は最先端のチップを購入するために多額の費用を費やす用意があることを示しています。

さらに、大規模な言語モデルをトレーニングするために新しいデータを取得するコストも無視してはなりません。 OpenAIやAppleのような企業が出版社からコンテンツのライセンスを取得するために支払う料金は、些細なことのように思えるかもしれないが、将来的には劇的に増加する可能性がある。大規模言語モデルは徐々に新しいモデルのための「合成」トレーニング データを生成していますが、再現できない高品質な情報がまだたくさんあります。

<<:  ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

>>:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を...

5分で強力で使いやすいディープラーニング環境を構築

ディープラーニング プロジェクトに適した環境を構築するのは簡単な作業ではありません。処理すべきことは...

Java プログラミング スキル - データ構造とアルゴリズム「ハフマン コーディング」

基本的な紹介ハフマン符号化は、(ハフマンコーディング) とも訳されます。ハフマン符号化は、ハフマンコ...

Beike Renting: 業界に力を与え、レンタル部門の基準の再構築を推進

[原文は51CTO.comより] 国家の不動産市場マクロコントロール政策の導入以来、住宅購入の敷居は...

...

...

ウナギの下半身は切り落とされた後もまだ動きます。ロボット: 受け取ってください。

[[418811]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

人工知能:しっかりと根を張ってこそ、どこでも繁栄できる

人工知能(AI)技術は静かに人間の生活を変えています。顔認証、顔スワイプ決済、新型コロナウイルス感染...

IoTとAIの融合:予知保全の新たなパラダイム

モノのインターネット (IoT) と人工知能 (AI) の融合により、予知保全における新たなパラダイ...

顔認識情報セキュリティは大きな注目を集めており、専門家の代表者らは多くの提案を行っている。

近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...

...

SQL は ChatGPT を実行できますか?答えはYESです!

ChatGPTは世界中で人気を博しています。今日の質問は、SQL で ChatGPT を実行できる...

コードを入力せずに機械学習を行うことはできますか?アマゾンウェブサービスが今回大きな動きを見せた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

近年、我が国のロボット産業は急速な発展傾向を示していますが、一方で、中核技術の弱さや粗利益率の低下な...

時空間アルゴリズム研究に基づくビジネス意思決定分析

[[191733]]諺にもあるように、「時間と空間は予測不可能である」。自然界では、時間と空間が急速...