この論文は最初のICLRで却下され、コードは最適化されすぎていた。word2vecの作者であるTomas Mikolov氏がその裏話を語った。

この論文は最初のICLRで却下され、コードは最適化されすぎていた。word2vecの作者であるTomas Mikolov氏がその裏話を語った。

数日前、NeurIPS 2023 は受賞論文を発表し、その中で 10 年前の NeurIPS 論文「単語と句の分散表現とその構成性」が Test of Time 賞を受賞しました。この研究は、画期的な単語埋め込み技術 word2vec を導入し、大量の非構造化テキストから学習する能力を実証し、自然言語処理の新しい時代を切り開きました。

この論文は、当時 Google にいた Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean らによって執筆され、40,000 回以上引用されています。

しかし、最初の Word2vec 論文は、Tomas Mikolov と他の著者による「ベクトル空間での単語表現の効率的な推定」でした。この論文の引用数は4万件近くに達しました。

論文アドレス: https://arxiv.org/abs/1301.3781

最近、トーマス・ミコロフ氏は、最初の ICLR による論文の却下やその後の進展など、論文の背景にあるさらなるストーリーを共有しました。

画像ソース: https://www.facebook.com/tomas.mikolov

以下は元の投稿内容ですが、本来の意味を変えずに編集しました。

word2vec の論文が NeurIPS 2023 Proof of Time Award を受賞したことを大変嬉しく思います。これは、私が最優秀論文タイプとして受賞した初めての賞です。実際、元の word2vec 論文は、2013 年の最初の ICLR カンファレンスで (採択率が高かったにもかかわらず) 拒否されました。このことから、査読者が論文の将来的な影響を予測することがいかに難しいかを考えさせられました。

長年にわたり、私は word2vec について肯定的なものも否定的なものも含め多くのコメントを聞いてきましたが、インターネット上に真剣にコメントを投稿したことは一度もありません。研究コミュニティは、一部の研究者による PR スタイルの宣伝にますます浸かっているように感じます。彼らは、これを他の人の論文の引用や注目を集める手段として利用しています。私はその一部になりたいとは思いませんが、10年後には、その新聞の裏にあるストーリーのいくつかを共有するのも興味深いかもしれません。

よく聞くコメントの一つは、コードが非常にわかりにくいので、わざと読みにくくしたのではないかと思う人もいる、というものです。しかし、私はそこまで邪悪な人間ではなく、リリースの承認を得るのに何ヶ月も待ったため、コードは最終的に過剰に最適化されてしまいました。また、コードをより高速かつ短くするように努めています。振り返ってみると、当時グレッグ・コラードとジェフ・ディーンがチームにいなかったら、承認を得ることはできなかっただろうと思います。 word2vec はおそらく、Google がオープンソース化した最初の広く知られた AI プロジェクトだと思います。

word2vec のリリースから 1 年以上経って、スタンフォード NLP グループの GloVe プロジェクトも大きな論争を巻き起こしました。このプロジェクトは私たちのプロジェクトから多くの技術をコピーしましたが、GloVe は常に後退しているように感じられました。つまり、速度が遅く、メモリを多く必要とし、word2vec よりも品質の低いベクトルを生成したのです。しかし、GloVe はより多くのデータで事前トレーニングされた単語ベクトルに基づいてリリースされたため、人気を博しました。その後、fastText プロジェクトでこの問題を修正し、同じデータでトレーニングした場合、word2vec のパフォーマンスは GloVe よりもはるかに向上しました。

word2vec は私の論文の中で最も引用されている論文ですが、私はこれを最も影響力のあるプロジェクトだとは思っていませんでした。実際、word2vec コードは元々、以前のプロジェクト RNNLM のサブセットにすぎず、すぐに忘れ去られてしまったように感じます。しかし、私の意見では、AlexNet と同じくらい革命的なものになるはずです。

ここでは、2010 年に RNNLM で初めて実証されたアイデアのいくつかを挙げます。リカレント ニューラル ネットワークのスケーラブルなトレーニング、ニューラル言語モデルによる最初のテキスト生成、動的評価、文字およびサブワード レベルでのニューラル言語モデリング、ニューラル言語モデルの適応 (現在はファインチューニングと呼ばれています)、公開された最初の LM ベンチマークです。

私は、すべてが正しく行われると、ニューラル ネットワークはより多くのトレーニング データを使用して n-gram 言語モデルよりも優れたパフォーマンスを発揮できることを示す最初の研究を発表しました。これは今では当たり前のことのように聞こえますが、当時は不可能だと広く考えられており、Google の従業員のほとんどでさえ、データが増えれば増えるほど、n グラムとスムージング技術以外のことを行うのは無駄になると信じていました。

私は幸運にも、2012 年に Google Brain チームに参加しました。このチームには大規模ニューラル ネットワークの「信奉者」が多く、word2vec プロジェクトに取り組むことを許可され、その可能性を実証することができました。しかし、ここまで来れば完璧だという印象を与えたくはありません。 word2vec の後のプロジェクトとして、Google Translate を改良することでニューラル言語モデルを普及させたいと考えました。私はフランツ・オッホと彼のチームとのコラボレーションを開始し、その中でフレーズベースの機械翻訳を補完したり、さらにはそれに代わったりできるいくつかのモデルを提案しました。

実際、Google に入社する前に、私はニューラル言語モデルを文のペア(フランス語と英語など)でトレーニングし、最初の文を見た後に生成モデルを使用して翻訳を生成することで、エンドツーエンドの翻訳を実現するという非常にシンプルなアイデアを提案しました。これは短い文には有効ですが、長い文にはそれほど有効ではありません。

私は Google Brain 内で、主に私が Facebook AI に移った後にプロジェクトを引き継いだ Quoc と Ilya と、このプロジェクトについて何度か話し合いました。最終的に、彼らが私のアイデアを「From Sequence to Sequence」というタイトルで出版し、私を共著者として挙げなかっただけでなく、長い謝辞のセクションで私を除く Google Brain のほぼ全員の名前を挙げたことに、私は非常に驚きました。当時は、人工知能の分野に巨額の資金が投入され、あらゆるアイデアが莫大な価値を持っていた時代でした。ディープラーニング コミュニティがあっという間に「ゲーム・オブ・スローンズ」のような状況になってしまったのは悲しいことです。

全体として、言語モデルへの関心は長年にわたってゆっくりと高まってきましたが、ChatGPT のリリース以降は爆発的に増加しており、ついに多くの人が AI と言語を結び付けているのを見るのは本当に素晴らしいことです。まだそこまでには至っておらず、ニューラル モデルの一般化の限界を押し広げるには新たな発見が必要だと個人的には考えています。私たちは間違いなく刺激的な時代に生きています。しかし、数十人、あるいは数百人の科学者の努力に基づく技術を独占し、それがすべて人類の利益のためであると主張する人たちをあまり信用しすぎないようにしましょう。

しかし、トーマス・ミコロフ氏のスピーチは人々のため息をも誘った。彼はLSTMの父、ユルゲン・シュミットフーバー氏の後を継ぐのだろうか?

画像出典: https://twitter.com/agihippo/status/1736107652407849208

どう思いますか?

<<: 

>>:  Mistral と Microsoft が「小さな言語モデル」の波を起こしました。 Mistralのコーディング能力はGPT-4より優れており、コストは2/3に削減されます

ブログ    
ブログ    
ブログ    

推薦する

ローコードがAIの参入障壁を下げる

[[341638]] [51CTO.com クイック翻訳] 機械学習を迅速に実装したい組織は、新興の...

16歳の高校生が13,000行以上のコードでC++機械学習ライブラリをゼロから作成した

コンピューターが大好きなティーンエイジャーは、16歳にしてすでに、広東語プログラミング言語の開発、K...

2018年に人工知能はどのように発展するでしょうか? 13人の専門家の予測を聞いてみよう

ウォール・ストリート・ジャーナル、フォーブス、フォーチュンなどの出版物は、2017 年を「AI の年...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

生体認証監視がデータセンターの物理的セキュリティを強化する方法

生体認証監視を使用してデータセンター全体または一部へのアクセスを制御することには多くの利点があります...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

...

大規模モデルの観点から見た因果推論

1. 因果推論と大規模モデル近年、因果推論は研究のホットスポットとなり、多くのシナリオに適用されてき...

上級アーキテクトが初めて秘密を明かす:Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

[[217643]]現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシ...

5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!

新しい AI プロジェクトに取り組んでいて、プログラミングに使用する言語をまだ決めていない場合は、今...

Alibaba Damo AcademyのJin Rong氏:テクノロジーから科学へ、中国のAIはどこへ向かうのか?

ダートマス会議から数えると、AIは65年の歴史を歩んできました。特に近年のディープラーニングの台頭に...

プライバシー情報セキュリティに注意を払い、顔認識の数十億ドル規模のブルーオーシャンを開拓しましょう

近年、人工知能の継続的な発展とインテリジェント時代の静かな到来に伴い、顔認識に代表される生体認証技術...

GTA5をプレイしていますか?インテルの新しいモデルは3Dレンダリングをリアルな画像に変換します

GTA5 は古典的な 3D アドベンチャー ゲームであり、そのスタイルは次のとおりです。写真は現実に...

ファイザーはAIとスーパーコンピューターを活用してコロナウイルスのワクチンと薬を設計している

ファイザーの最高デジタル・技術責任者リディア・フォンセカ氏は、機械学習技術は医薬品の発見、臨床試験、...

水滴事件の裏側:スマート監視下では逃げ場はなく、カモフラージュやマスク着用も無意味!

[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...