注目の話題 | 3年生が独力でAIモデルを解読

注目の話題 | 3年生が独力でAIモデルを解読

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

驚異的なAI、GPT-2。

今年2月、OpenAIは初めてこのモデルの存在を発表しました。 GPT-2 は、非常に簡単に記事を書くことができ、特別なトレーニングなしでさまざまな特定分野の言語モデリングタスクを処理できます。また、読解、質疑応答、記事の要約の生成、翻訳を行う機能も備えています。

しかし、珍しいことに、このモデルは実際にはオープンソースではありません。 OpenAIの説明によれば、GPT-2は強力すぎるため、完全なモデルを公開する勇気はないとのことです... 外部から嘲笑されたにもかかわらず、GPT-2は今日まで非公開のままです。

今、OpenAI が他者に知られたくない秘密を誰かが単独で解明した。

しかも彼は3年生です。

ミュンヘン工科大学の学生コナー・リーヒさんは、GPT-2プロジェクトを再現するために2か月で200時間と約6,000人民元を費やした。

この事件はツイッター上で大きな注目を集めた。素晴らしいと賞賛する人もいれば、深い議論をする人もいて、OpenAI の上級研究者数名もコミュニケーションに来てくれました。

また、コナー・リーヒ氏が余暇を利用して機械学習に関する知識をすべて独学で学んだことも称賛に値します。彼は自分自身を好奇心旺盛な大学生だと表現している。

「他の人が女の子をナンパするのに費やす時間を、AI実験に使っただけです。」

[[267586]]

激怒して

GPT-2 は OpenAI の最高の研究成果です。

このモデルは GPT の「進化版」であり、最大の違いはその規模にあります。 GPT-2 には 15 億のパラメータがあり、800 万の Web ページを含む 40 GB のデータセットを使用してトレーニングされました。

言語モデルをトレーニング信号として使用して、大規模なデータセットで教師なし方式で Transformer をトレーニングし、その後、このモデルをより小さな教師ありデータセットで微調整して、特定のタスクを解決できるようにします。


GPTモデル

OpenAIの研究者らは、GPT-2はさまざまなドメイン固有のデータセットでの言語モデリングテストで優れたスコアを達成したと述べている。特定のドメイン データで特別にトレーニングされていないモデルであるため、特定のドメイン用に構築されたモデルよりもパフォーマンスが優れています。

GPT-2 は言語モデリングに使用されるだけでなく、微調整なしで質問回答、読解、要約生成、翻訳などのタスクでも優れた結果を達成できます。

GPT-2のリリース後、ディープラーニングの父であるヒントン氏は、Twitter登録以来3度目のコメントを投稿した。「これにより、シリコンバレーのユニコーン企業はより優れた英語を生成できるようになるはずだ。」

このモデルの強力なパフォーマンスについては、QuantumBit による以前のレポートを参照してください。ここでは繰り返しません。

一言で言えば、「強い」という一言です。

OpenAI は、その強さゆえに、完全なモデルをすべての人に公開しないという難しい決断を下しました。最初にリリースされたのは、1億1,700万のパラメータを持つ小型バージョンで、これは10分の1以下のサイズでした。数か月間批判された後、3億4,500万のパラメータを持つ中型バージョンをリリースしました。

GPT-2 がコナー・リーヒ氏の好奇心を刺激したことは間違いないが、同時に、モデルを非公開にするという OpenAI の決定も彼を非常に怒らせた。 「情報は無料であるべきだ。」

そこで彼は自分でそれを再現しようと決心した。

彼はただ衝動的に行動しただけではない。 GPT-2 を再現する必要がある理由については、コナー・リーヒ氏が自身のブログで長々と考察しており、AI が作り上げたフェイクニュースを恐れるのではなく、この問題をすべての人に認識させ、勇敢に立ち向かい、解決策を見つけるために積極的な行動を取る方が良いと述べています。

もちろん、別の理由もあると彼は考えています。

とてもかっこいいですね。

GPT-2の複製版

「15 億のパラメータを持つ GPT-2 モデルを正常に複製できたかどうかはどうやってわかるのですか?」

残念ながら、ほとんどの人はこの質問の答えを知りたいと思うでしょう。

コナー・リーヒ氏は、2 つのモデルは同じサイズとパラメータ数であり、同様のデータ ソースに基づいてトレーニングされ、同様のコンピューティング リソースを使用し、同様の出力品質を備えていると回答しました。

彼はまた、次のように両者の間に明確な違いをいくつか挙げました。

1. ドロップアウトや学習率は公式には公開されていないため、設定が異なる可能性があります。

2. モデルのトレーニングには Adam ではなく Adafactor が使用されました。 Connor Leahy は、16 ビットの精度であっても、15 億のパラメータ + Adam を TPU に詰め込む方法を知りません。

なぜ?待って……

普通の3年生がTPUを使ってこのような研究を行うにはどうすればいいのでしょうか?

ありがとう、Google。

Google には Tensorflow Research Cloud (TFRC) プログラムがあります。このプログラムは研究者を対象としており、1,000 個の Cloud TPU のクラスターを完全に無料で提供します。このプログラムは、集中的なコンピューティングを必要とし、他の手段では達成できないさまざまな研究プロジェクトをサポートするために使用されます。

Connor Leahy 氏が GPT-2 の再現を研究していたとき、コンピューティング リソースのボトルネックが発生しました。彼はそのことを TFRC チームに何気なく伝えたところ、Google から手厚いサポートを受けることになりました。

実際、このプロジェクトを引き受けるまで、Connor Leahy 氏は TPU を使ったことがありませんでした。そこで彼はブログで Google チームへの感謝の気持ちを熱烈に表明しました。

しかし、データセットの作成、コードのテスト、実験の実行に、クラウドで約600〜800ユーロ(約6,000元)を費やしました。

彼が使っていたノートパソコンは古いThinkPadでした。

学生のコナー・リーヒさんも、ノイズキャンセリングヘッドホンに感謝の意を表した。「おかげで静かに過ごせます。」

現在、GPT-2の再現版はGitHubでオープンソース化されており、コードはGPU、TPU、CPU(非推奨)で実行可能です。作者は現在 2 つのバージョンをリリースしています。1 つは 1 億 1,700 万のパラメータを持つ小型バージョンで、もう 1 つは PrettyBig と呼ばれるバージョンです。PrettyBig は公式の中型バージョンよりわずかに大きく、3 億 4,500 万のパラメータを持ち、現在利用可能な最大の GPT-2 モデルでもあります。

15億パラメータの完全版については、7月1日に発売予定とのこと。

この段階で、Connor Leahy は、誰でもダウンロードして試用し、GPT-2 の再現バージョンにどのような改善の余地があるか話し合うよう呼びかけています。これに関するブログ投稿で、彼はこう述べている。「誤りの指摘には100%耳を傾けますので、何か見つかったらご連絡ください。」

著者とポータルについて

Connor Leahy は 2017 年にドイツのミュンヘン工科大学に入学し、現在はコンピューターサイエンスの学部 3 年生です。 LinkedIn では、彼は人工知能に情熱を持っていると述べている。

2018 年 9 月から現在まで、マックス プランク研究所でインターンシップを行っており、Google の TPU を使用して本格的な AI のトピックを研究しています。

最後にポータルを配置します。

Connor Leahy の思慮深いブログ:

https://medium.com/@NPCollapse/gpt2-counting-consciousness-and-the-curious-hacker-323c6639a3a8

GitHub で彼に会ってください:

https://github.com/ConnorJL/GPT2

<<:  復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

>>:  人工知能から新素材まで、IBMが5つの革新的な技術を発表

ブログ    
ブログ    

推薦する

トレンドマイクロ:2030年までにAIがサイバーセキュリティ担当者に取って代わる

トレンドマイクロは、2021年に向けて、サイバー犯罪者がホームネットワークを利用して企業のITおよび...

...

グラフアルゴリズムシリーズにおける深さ優先探索

[[396433]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

データサイエンスのための Python: ニューラル ネットワーク

人工ニューラル ネットワーク (ANN) は、数学的および物理的な方法を使用して人間の脳のニューラル...

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...

...

...

誰も教えてくれないAI大規模導入の効率的なプロセス!

現在、AIに関するチュートリアルは数多くあります。オブジェクト検出、画像分類、NLP の実行方法、チ...

7つの機械学習アルゴリズムの7つの重要なポイント

さまざまなライブラリとフレームワークの助けを借りて、たった 1 行のコードで機械学習アルゴリズムを実...

トレンディで無料! 2024 年に持つ価値のある 8 つの「チート」ツール!

編纂者:Xing Xuan企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...

仕事再開時に間接接触を避けるには?顔認識アクセス制御で徹底した予防と管理を実現

職場復帰の日が近づくにつれ、全国で生産や業務が徐々に再開されているが、同時に防疫活動も緩めてはならな...

人工知能が「怠け者」社員147人を解雇、「労働者」は追い詰められている

人工知能やロボットがSF小説に登場して以来、人類は人工知能と共存する未来社会に不安を抱いてきた。映画...

MIT、思考制御によるロボットのミスを防ぐ新しいインターフェースシステムを開発

[[233698]]海外メディアの報道によると、ロボットに災害を引き起こす可能性のあることをしないよ...

3nmなのに歯磨き粉を絞ってるだけ? A17 Proの実行スコアが公開:CPUマルチコアはわずか3.6%向上

昨日Apple A17 Proが正式リリースされ、3nmプロセスを採用していますが、その性能はどのよ...

年末総括|2020年日本におけるAI(ロボティクス)分野の主なニュースを振り返る

在庫がなければ大晦日もありません。 2020年に日本のAI・ロボティクス分野で起こった出来事をいくつ...