トランスフォーマー6周年：その年にNeurIPS Oralを受賞しなかった8人の著者が、いくつかのAIユニコーンを創設した

ChatGPTからAI描画技術まで、人工知能分野における最近の進歩はTransformerのおかげかもしれません。

今日は有名なトランスフォーマー論文の提出から6周年です。

論文リンク: https://arxiv.org/abs/1706.03762

6年前、プレプリント論文プラットフォームarXivに、やや大げさな名前の論文がアップロードされた。「xx is All You Need」というフレーズは、AI分野の開発者によって繰り返し使われ、論文タイトルのトレンドにまでなった。Transformerはもはやトランスフォーマーを意味しなくなり、AI分野の最先端技術を表すようになった。

6 年経ってこの論文を振り返ると、NVIDIA の AI 科学者 Jim Fan 氏がまとめたように、興味深い点やあまり知られていない点が数多く見つかります。

「注意メカニズム」はTransformerの作者によって提案されたものではない

Transformer モデルは従来の CNN および RNN ユニットを廃止し、ネットワーク構造全体が完全に注意メカニズムで構成されます。

Transformer の論文のタイトルは「Attention is All You Need」であり、私たちはこの論文のタイトルのために注意メカニズムを推進し続けていますが、興味深い事実に注意してください。注意を発明したのは Transformer の研究者ではなく、彼らがこのメカニズムを極限まで推し進めたのです。

注意メカニズムは、ディープラーニングの先駆者であるヨシュア・ベンジオ氏が率いるチームによって 2014 年に提案されました。

「アラインメントと翻訳を共同で学習するニューラル機械翻訳」というタイトルは非常にわかりやすいです。

この ICLR 2015 論文では、Bengio らが RNN +「コンテキストベクトル」(つまり注意) の組み合わせを提案しました。これは NLP 分野における最も偉大なマイルストーンの 1 つですが、トランスフォーマーほどよく知られていません。ベンジオ氏のチームの論文はこれまでに 29,000 回引用されていますが、トランスフォーマーは 77,000 回引用されています。

AI の注意メカニズムは、当然ながら人間の視覚的注意をモデルにしています。人間の脳には生来の能力があり、画像を見るとき、まず画像を素早くスキャンし、次に焦点を合わせる必要がある対象領域にロックします。

地元の情報を見逃さないようにすると、必然的に無駄な作業が多くなり、生き残るのに役立ちません。同様に、ディープラーニングネットワークに同様のメカニズムを導入すると、モデルを簡素化し、計算を高速化できます。本質的には、注意とは、大量の情報から少量の重要な情報をフィルタリングし、この重要な情報に焦点を当て、重要でない情報のほとんどを無視することです。

近年、注意メカニズムは、コンピュータービジョンにおける画像上の受容野の捕捉や、NLP における主要なトークンや特徴の特定など、ディープラーニングのさまざまな分野で広く使用されています。多数の実験により、注意メカニズムを追加したモデルは、画像の分類、セグメンテーション、追跡、強化、自然言語の認識、理解、質問への回答、翻訳タスクにおいて大幅なパフォーマンスの向上を達成したことが示されています。

注意機構を導入したTransformerモデルは、汎用シーケンスコンピュータとみなすことができます。注意機構により、モデルは入力シーケンスを処理する際に、シーケンス内の異なる位置の関連性に応じて異なる注意重みを割り当てることができます。これにより、Transformerは長距離の依存関係とコンテキスト情報をキャプチャできるため、シーケンス処理の効果が向上します。

しかし、当時は、Transformer も最初の注目論文も、汎用シーケンシャルコンピュータについては触れていませんでした。むしろ、著者らはこれを、機械翻訳という限定的で具体的な問題を解決するためのメカニズムとみなしている。したがって、将来 AGI の起源をたどるときには、おそらく「謙虚な」Google 翻訳にまで遡ることができるでしょう。

NeurIPS 2017に採択されたが、口頭発表すら行われなかった。

Transformer の論文は現在非常に影響力があるものの、世界トップクラスの AI カンファレンス NeurIPS 2017 では受賞どころか口頭発表すらされませんでした。その年、カンファレンスには合計 3,240 件の論文が提出され、そのうち 678 件がカンファレンス論文として選ばれました。Transformer の論文は、採択された論文の 1 つです。これらの論文のうち、40 件は口頭発表論文、112 件はスポットライト論文、3 件は最優秀論文、1 件は Test of time 賞でした。Transformer は賞を受賞しませんでした。

NeurIPS 2017 論文賞は受賞しませんでしたが、Transformer の影響は誰の目にも明らかです。

ジム・ファン氏は次のようにコメントしています。「影響力のある研究が影響力を持つようになる前に、その重要性を人々が理解することが難しいのは、審査員のせいではありません。」しかし、He Kaiming氏らが提案したResNetのように、初めて発見される幸運に恵まれた論文もあります。同論文は、その年のCVPR 2016最優秀論文賞を受賞しました。この研究は当然のものであり、トップクラスのAIカンファレンスで正当に評価されました。しかし、2017年の当時、非常に優秀な研究者でさえ、LLMによってもたらされる変化を予測することはできなかったかもしれません。1980年代に、2012年以降にディープラーニングによってもたらされた津波を予見できた人はほとんどいなかったのと同じです。

それぞれ素晴らしい人生を送る8人の作家

当時、この論文の著者は 8 名で、Google とトロント大学に所属していました。5 年経った今、著者のほとんどは元の所属機関を離れています。

2022年4月26日、Transformer論文の著者2人、Ashish Vaswani氏とNiki Parmar氏を含む9人の共同創業者とともに「Adept」という会社が設立されることが正式に発表されました。

Ashish Vaswani 氏は南カリフォルニア大学で博士号を取得しました。同大学では中国人学者の David Chiang 氏と Liang Huang 氏の指導の下、言語モデルにおける現代のディープラーニングの初期の応用に焦点を当てて研究しました。 2016年にGoogle Brainに入社し、Transformerの研究を主導し、2021年にGoogleを退社した。

ニキ・パーマーは南カリフォルニア大学で修士号を取得し、2016 年に Google に入社しました。在職中、彼女は Google 検索と広告向けのいくつかの成功した質問応答モデルとテキスト類似性モデルを開発しました。彼女は、Transformer モデルを画像生成やコンピュータービジョンなどの分野に拡張する初期の作業を主導しました。 2021年に彼女もGoogleを退社した。

退社後、2人はAdeptを共同設立し、それぞれ主任科学者（Ashish Vaswani）と最高技術責任者（Niki Parmar）を務めた。 Adept のビジョンは、さまざまなソフトウェアツールと API を使用するようにトレーニングされた「AI チームメイト」と呼ばれる AI を作成することです。

2023年3月、アデプトは3億5,000万ドルのシリーズB資金調達ラウンドを完了し、同社の評価額が10億ドルを超え、ユニコーン企業になったと発表しました。しかし、Adept が公に資金を調達した時点では、Niki Parmar 氏と Ashish Vaswani 氏はすでに Adept を離れ、独自の新しい AI 企業を設立していました。ただし、新会社はまだ秘密保持段階にあり、詳細な情報を得ることができません。

この論文のもう一人の著者であるノアム・シャジールは、グーグルの初期の最も重要な従業員の一人だった。彼は2000年後半にGoogleに入社し、2021年に退社した後、「Character.AI」というスタートアップのCEOに就任した。

Character.AI のもう 1 人の創設者は Noam Shazeer 氏に加え、Daniel De Freitas 氏です。2 人とも Google の LaMDA チーム出身です。以前、彼らは Google で会話型プログラムをサポートする言語モデルである LaMDA を構築しました。

今年3月、Character.AIは1億5000万ドルの資金調達ラウンドを完了し、評価額が10億ドルに達したと発表した。同社はChatGPTを所有する組織であるOpenAIと競合できる可能性を秘めた数少ないスタートアップの1つであり、わずか16か月でユニコーンに成長した珍しい企業でもある。そのアプリケーションである Character.AI は、人間のようなテキスト応答を生成し、文脈に応じた会話を行うことができるニューラル言語モデルチャットボットです。

Character.AIは2023年5月23日にApple App StoreとGoogle Play Storeでリリースされ、初週に170万回以上ダウンロードされました。 2023年5月、同サービスはc.ai+と呼ばれる月額9.99ドルの有料サブスクリプションを追加した。これにより、ユーザーは優先チャットアクセス、より速い応答時間、新機能への早期アクセスなどの特典を得られる。

エイダン・N・ゴメス氏は2019年にGoogleを退社し、その後FOR.aiで研究者として働きました。現在はCohereの共同創設者兼CEOを務めています。

Cohere は 2019 年に設立された生成 AI のスタートアップ企業です。同社の主な事業は、NLP モデルの提供と、企業による人間とコンピューターの相互作用の改善支援です。創設者の3人はIvan Zhang、Nick Frosst、Aidan Gomezで、GomezとFrosstは元Google Brainチームのメンバーです。 2021 年 11 月、Google Cloud は Cohere と連携し、Google Cloud は強力なインフラストラクチャを使用して Cohere プラットフォームを強化し、Cohere は Cloud の TPU を使用して製品の開発と展開を行うことを発表しました。

Cohere がシリーズ C の資金調達で 2 億 7,000 万ドルを調達し、時価総額 22 億ドルのユニコーン企業になったことは注目に値する。

Łukasz Kaiser 氏は、 Google で 7 年 9 か月勤務した後、2021 年に同社を退職し、現在は OpenAI の研究者です。 Google の研究科学者として勤務していた間、機械翻訳、構文解析、その他のアルゴリズムおよび生成タスク用の SOTA ニューラルモデルの設計に参加し、TensorFlow システムと Tensor2Tensor ライブラリの共同執筆者でもありました。

ヤコブ・ウスコライトは、 Google で 13 年間勤務した後、2021 年に Google を退社し、その後 Inceptive の共同創設者として参加しました。 Inceptive は、ディープラーニングを使用して RNA 医薬品を設計することに特化した AI 製薬会社です。

Google 在籍中、Jakob Uszkoreit 氏は Google アシスタントの言語理解機能を構築するチームの一員であり、初期の Google 翻訳にも携わっていました。

イリア・ポロスキン氏は2017年にGoogleを退社し、現在はブロックチェーンベースのテクノロジー企業であるNEAR.AIの共同創設者兼CTOを務めている。

グーグルに残っているのは、同社に勤続9年目を迎えるリオン・ジョーンズ氏だけだ。

今日、論文「Attention Is All You Need」が発表されてから 6 年が経ちました。元の著者の中には Google を去ることを選んだ人もいれば、Google に残ることを選んだ人もいます。いずれにせよ、Transformer の影響は続いています。

<<:

>>: NatureがAIGC禁止令を発令！ビジュアルコンテンツにAIを使用した投稿は受け付けられません

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

トランスフォーマー6周年：その年にNeurIPS Oralを受賞しなかった8人の著者が、いくつかのAIユニコーンを創設した

「注意メカニズム」はTransformerの作者によって提案されたものではない

NeurIPS 2017に採択されたが、口頭発表すら行われなかった。

それぞれ素晴らしい人生を送る8人の作家

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

効率が1200倍にアップ！ MIT、医薬品製造向けの新たなAIモデルを開発

2020 年に爆発的に増加する 9 つの AI マーケティングトレンド

三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

こんなに高い給料がもらえる機械学習の職種の面接を受けるにはどうしたらいいのでしょうか?

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?

推薦する

プログラミングと数学の基礎が乏しい場合、人工知能を始めるにはどうすればよいでしょうか?

Appleは、来年の製品発売を目標に、独自の大規模モデルフレームワークをベースにしたApple GPTを秘密裏に開発していると噂されている。

ブロックチェーンのいくつかのコンセンサスアルゴリズム

AIは「噂を払拭する剣」となり、今後の応用に無限の可能性を秘めている

人工知能はますますあらゆる分野に浸透しつつある

金融を専攻する学生は人工知能をどのように学ぶべきでしょうか?

184.3億ドルを突破！「中国スピード」が人工知能の分野で再び出現

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

AIインフルエンサーはPSのみで月8万元稼げる

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる