GPT-3 に匹敵するものでしょうか? EleutherAIがGPT-Jをオープンソース化

GPT-3 に匹敵するものでしょうか? EleutherAIがGPT-Jをオープンソース化

2020年、マイクロソフトはOpenAIと合意に達し、MicrosoftはGPT-3のソースコードに独占的にアクセスできるようになりました。それ以来、OpenAIは以前のようにGPT-3 AIモデルを公開していませんが、OpenAIのGPT-1とGPT-2は依然としてオープンソースプロジェクトです。

自然言語処理 AI モデルにおける OpenAI と Microsoft の独占を打ち破るために、Connor Leahy、Leo Gao、Sid Black は、AI の調整、スケーリング、オープンソース AI 研究に重点を置いた組織である EleutherAI を設立しました。最近、EleutherAI 研究チームは、GPT-3 をベースにした自然言語処理 AI モデル GPT-J をオープンソース化しました。

GPT-J は GPT-3 をベースにした自然言語処理 AI モデルであり、60 億のパラメータで構成されています。このモデルは 800 GB のオープンソース テキスト データセットでトレーニングされており、同様のサイズの GPT-3 モデルに匹敵します。

このモデルは、Google Cloud の v3-256 TPU と EleutherAI の The Pile データセットを使用して約 5 週間でトレーニングされました。 GPT-J は、OpenAI が報告した 67 億パラメータバージョンの GPT-3 と同等の精度を標準 NLP ベンチマーク ワークロードで達成します。モデル コード、事前トレーニング済みの重みファイル、Colab ドキュメント、デモ Web ページはすべて、EleutherAI のオープン ソース プロジェクトに含まれています。

EleutherAI は 2021 年 3 月に 27 億パラメータの GPT-Neo モデルをリリースしました。これは同社による GPT のようなシステムの最初の実装でした。 GPT-Neo は TensorFlow で構築され、Mesh TensorFlow 並列ライブラリを介して TPU でトレーニングされます。チームは現在、Microsoft DeepSpeed をベースにした GPU ソリューションである GPT-NeoX も開発しています。コードはオープンソースですが、モデル ファイルには現時点でアクセスできません。

最新モデル GPT-J は、新しいライブラリ Mesh-Transformer-JAX を使用してトレーニングされます。このライブラリは、TensorFlow のような特定のディープラーニング フレームワークを使用する代わりに、Google の JAX 線形代数フレームワークを使用します。 GPT-J は Tensorflow よりも柔軟で高速な推論を提供し、モデル開発時間は以前の取り組みよりもはるかに短くなります。 GPT-Neo モデルと比較して、GPT-J のトレーニング効率は 125% 向上します。いくつかのダウンストリーミング ワークロードにおけるゼロ ポイント パフォーマンスに関しては、GPT-J は公開されている Transformer LM の中で最高です。

EleutherAI の開発者である小松崎氏は、次のように述べています。「TensorFlow や TPU などの類似製品と比較すると、より柔軟で高速な推論が可能になります。さらに重要なのは、他の大規模モデルに比べてプロジェクトにかかる時間がはるかに短いことです。調査によると、JAX + xmap + TPU は、大規模なモデルを迅速に開発するための完璧なツール セットです。」

開発者は、GitHub で GPT-J のソースコードとモデルを、EleutherAI の公式 Web サイトでインタラクティブなデモを見つけることができます。

この記事はOSCHINAから転載したものです

この記事のタイトル: GPT-3 に匹敵するか? EleutherAI が GPT-J をオープンソース化

この記事のアドレス: https://www.oschina.net/news/150972/eleutherai-open-sources-gpt-j

<<:  AIを活用してデジタル資産管理ワークフローを効率化する方法

>>:  AIエンジニアリングについて知っておくべきこと

ブログ    
ブログ    

推薦する

...

音声UIの裏にある魅力

Amazon の Echo および Echo Dot スマート スピーカーの成功により、音声コマンド...

放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

近年、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で革新の波を起こしています。大...

顔認識技術の応用に関する法的規制

新興技術の発展とビジネス、公共福祉、社会統治などの分野におけるその応用をどのように促進、保護、規制す...

...

ビッグデータとアルゴリズムについて言えば、これらを知っておくことはあなたにとって大きな利益となるでしょう

この記事では、ビッグデータ アルゴリズムを理解するプロセスをまとめます。本文は、アルゴリズムに関する...

AIは教育業界にどのような影響を与えるのでしょうか?これら6つの側面について学ぶ

人工知能は、SFの世界のものから、私たちの日常生活に影響を与える重要な技術へと変化しました。現在、多...

エンタープライズ ナレッジ グラフが直面している機会、課題、解決策

[51CTO.com クイック翻訳]企業の業務効率と事業部門の競争力を向上させるための重要なツールと...

Think2Drive: 自動運転のための初のモデルベース RL 手法 (上海交通大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

がん治療のブレークスルー:AIGCの医薬品開発における役割

AIGC には、がんの治療に役立つ可能性など、驚くべき用途を含め、多くの潜在的な用途があります。 M...

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

テンセントテクノロジーニュース、1月29日、海外メディアの報道によると、グーグルCEOサンダー・ピチ...

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

はじめにと動機 - なぜ C++ なのか? C++ は、動的負荷分散、適応型キャッシュ、大規模なデー...

マイクロソフト、Windows 11、Bing、Edge などで統合された Copilot AI アシスタントをリリース

Microsoft は、生成型人工知能ベースのデジタル アシスタント Copilot をより多くのソ...

アルトマン氏の地位は再び危険にさらされているのか? ! OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた

アルトマン氏の地位は再び危険にさらされているのか?事情に詳しい人物によると、オープンAIの取締役であ...