RWKV ポッドキャストからの私の考えの一部を要約すると次のようになります: https://www.latent.space/p/rwkv#details 代替案が重要なのはなぜですか? 2023年のAI革命を控え、 Transformerアーキテクチャは現在最盛期を迎えています。しかし、成功したTransformerアーキテクチャを急いで採用しようとすると、そこから学ぶことができる代替案を見落としてしまう可能性が高くなります。 エンジニアとして、私たちは画一的なアプローチをとったり、すべての釘に同じハンマーを使ったりすべきではありません。私たちは、あらゆる解決策においてトレードオフを見つける必要があります。そうしないと、特定のプラットフォームの制限に閉じ込められ、他の選択肢があることを知らないために「幸せ」を感じ、一夜にして開発が解放前の時代に戻ってしまう可能性があります。 この問題は人工知能分野に特有のものではなく、古代から現代まで繰り返されてきた歴史的なパターンです。 SQL 戦争の歴史からの一ページ… ソフトウェア開発における最近の注目すべき例としては、SQL サーバーが物理的な制限に直面し始めたときに出現した NoSQL のトレンドが挙げられます。世界中のスタートアップ企業は、規模がそこまで及ばないにもかかわらず、「規模」を理由に NoSQL に目を向けています。 しかし、時が経つにつれ、最終的な一貫性と NoSQL 管理オーバーヘッドの出現、そして SSD の速度と容量の点でのハードウェア機能の飛躍的な向上により、SQL サーバーは、その使いやすさと、現在では 90% 以上のスタートアップにとって十分なスケーラビリティにより、最近復活を遂げています。 これは、SQL が NoSQL よりも優れていることを意味しますか、それともその逆ですか?いいえ、それは単に、それぞれのテクノロジーには、長所と短所、そして類似のテクノロジー間で相互に作用できる学習ポイントを伴う好ましい使用例があるということを意味します。 現在のTransformerアーキテクチャの最大の問題点は何ですか? 通常、これには計算、コンテキスト サイズ、データセット、およびアライメントが含まれます。この議論では、計算とコンテキストの長さに焦点を当てます。
では、この問題をどう解決すればよいのでしょうか? RWKV の紹介: 線形トランスフォーマー/ 最新の大規模 RNN RWKV と Microsoft RetNet は、「線形トランスフォーマー」と呼ばれる新しいクラスのモデルの最初のものです。 以下のサポートにより、上記の 3 つの制限に直接対処します。
AI モデルを10 万以上のコンテキスト サイズに拡大し続けると、二次計算コストが指数関数的に増加し始めます。 ただし、線形トランスフォーマーは、リカレント ニューラル ネットワーク アーキテクチャを放棄してそのボトルネックを解決するわけではないため、リカレント ニューラル ネットワーク アーキテクチャを置き換える必要が生じました。 ただし、再設計された RNN は、Transformer から学んだスケーラブルな教訓を活用し、Transformer と同様に動作し、これらのボトルネックを解消します。 トレーニング速度の面では、Transformers が再び登場し、同様のパフォーマンス レベルを維持しながら、トレーニングで 10 億を超えるパラメータにスケーリングしながら、O(N) コストで効率的に実行できるようになりました。 チャート: トークンごとに線形にスケーリングされる線形トランスフォーマーの計算コストと、トランスフォーマーの指数関数的な増加 二乗比率で直線的にスケーリングすると、トークン数が 2,000 の場合に 10 倍以上、トークンの長さが 100,000 の場合に 100 倍以上になります。 RWKV は 140 億のパラメータを持ち、GPT NeoX や Pile などの他の同様のデータセットと同等の最大のオープンソース線形トランスフォーマーです。 さまざまなベンチマークにより、RWKVモデルの性能は、同様のサイズの既存の変圧器モデルと同等であることが示されています。 しかし、もっと簡単に言えば、これは何を意味するのでしょうか? アドバンテージ
欠点
したがって、RWKV はまだ LLaMA2 の 600 億以上のパラメータ規模には達していませんが、適切なサポートとリソースがあれば、特にモデルがより小型で効率的なモデルへと移行するにつれて、より低コストでより大規模な環境でそれを達成できる可能性があります。 使用ケースにおいて効率性が重要な場合は、これを考慮してください。しかし、これは究極の解決策ではありません。健康的な代替品が依然として重要です。 私たちがおそらく学ぶべき他の選択肢とその利点 拡散モデル: テキストのトレーニングは遅くなりますが、マルチエポックのトレーニングに対して非常に耐性があります。その理由を突き止めれば、トークン危機を緩和できるかもしれない。 生成的敵対ネットワーク/エージェント: データセットが利用できない場合でも、テキストベースのモデルであっても、特定のターゲットに必要なトレーニング セットをトレーニングするテクニックを使用できます。 原題: RWKV の紹介: 線形トランスフォーマーの台頭と代替案の検討、著者: picocreator https://hackernoon.com/introducing-rwkv-the-rise-of-linear-transformers-and-exploring-alternatives |
<<: ハーバード大学の研究によると、GPT-4は一部の企業従業員のパフォーマンスを40%向上させることができるという。
画像解析アプリケーションでは、大量の画像サンプルを効果的かつ自動的にフィルタリングすることが重要な基...
Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成...
人工知能の応用は、予想外の場所に現れるかもしれません。人工知能ソフトウェアの市場にいる場合、自社製品...
生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...
1. 製造業の発展の現状まず、製造業企業の発展状況について紹介します。 1. 企業経営は直線的な発展...
人間の言語を習得することはコンピューターにとって依然として課題だが、グーグルのエンジニアは人工知能(...
テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...