ChatGPTが使用する機械学習技術

ChatGPTが使用する機械学習技術

著者 |ブライト・リャオ

「プログラマーから見たChatGPT」の記事では、開発者のChatGPTに対する理解について説明しました。この記事では、ChatGPT で使用されている機械学習技術について説明します。

機械学習技術の発展

ChatGPT で使用されている機械学習技術について話すには、機械学習技術の発展を振り返る必要があります。 ChatGPT が使用するテクノロジーはゼロから発明されたものではなく、巨人たちの協力を得て開発されたものでもあります。

1. 機械学習技術の分類

実際、機械学習技術は 1930 年代から 1940 年代にまで遡ることができ、当初から統計学と切り離せない関係にあります。 1936 年に、有名な統計学者フィッシャーが線形判別分析法 (LDA) を発明しました。 LDA は分散分析の考え方を利用して高次元データを分離しようとします。これは後に、機械学習技術が解決する必要がある基本的な種類の問題、つまり分類問題へと発展しました。

コンピュータの出現後、決定木、SVM、ランダムフォレスト、ナイーブベイズ、ロジスティック回帰など、多数のコンピュータベースの機械学習アルゴリズムが登場しました。分類問題を解決するためにも使用できます。

分類問題とは、どのカテゴリに分類するかが事前にわかっている問題であり、これらのカテゴリは通常手動で定義されます。例えば、人は男性と女性に分かれ、プログラミング言語はC/C++/Javaなどに分かれます。

いくつのカテゴリに分割すればよいか事前にわからないという別のタイプの問題もあります。たとえば、一連のニュースがある場合、トピックごとにグループ化する必要がありますが、トピックがいくつあるかを事前に手動で判断できない場合があります。現時点では、機械学習アルゴリズムを使用して、ニュースにいくつのカテゴリがあるかを自動的に検出し、さまざまなニュースをさまざまなカテゴリに分類することができます。この種の問題はクラスタリングの問題です。

場合によっては、この分類は連続的になることがあります。たとえば、機械学習モデルを使用して人の身長を予測する場合、結果は特定の範囲内で連続的に変化する値であると想定できます。この種の問題を回帰問題と呼びます。分類問題との唯一の違いは、連続した値を出力することです。

さらに、典型的な機械学習の問題としては、次元削減、強化学習(エージェントと環境の相互作用を通じて最適な行動戦略を学習する)などがあります。

さまざまな問題に応じて分類するだけでなく、機械学習技術がデータを使用する方法に応じて分類することもできます。この観点から、機械学習技術は、教師あり学習、教師なし学習、半教師あり学習などに分類できます。教師あり学習では、モデルのラベル値を準備する必要があります。教師なし学習ではラベル値を準備する必要はなく、トレーニングを開始するためのデータのみが必要です。半教師あり学習には、ラベル付けされた値を持つデータの一部が必要です。

ChatGPT は、解決する問題の観点から見ると、入力テキストに基づいて次に出力される単語を予測する分類モデルであり、単語の範囲は固定されており、つまりモデルの出力は特定の分類であると言えます。

ChatGPT のデータの使用方法から判断すると、大量の教師なしデータと少量の教師ありデータを使用していると考えられます。したがって、ChatGPT は半教師あり機械学習技術と見なすことができます。

2. 従来の機械学習アルゴリズムと人工ニューラルネットワークに基づく機械学習アルゴリズム

決定木、SVM、ランダムフォレスト、ナイーブベイズ、ロジスティック回帰、および上記のその他のアルゴリズムは、ほとんどが検証可能で理解可能な統計知識に基づいて設計されています。これらのモデルの主な制限は、その有効性が限られており、大量のデータを使用してもさらに改善できないことです。これは、これらのモデルが比較的単純なモデルであるという事実に起因します。これらのアルゴリズムは非常に初期に開発され、更新がほとんどなく非常に安定しているため、一般的にこれらのアルゴリズムは従来の機械学習アルゴリズムと呼ばれています。

別のタイプの機械学習アルゴリズムは、人工ニューラル ネットワークに基づくものです。このタイプのアルゴリズムは、人間のニューラル ネットワークの構造をシミュレートしようとします。その起源も非常に古く、1943 年に WS McCulloch と W. Pitts が MP モデルを提案したときに遡ります。このモデルは、下の図に示すように、生物学的ニューロンの構造と動作メカニズムに基づいて、単純化された数学モデルを構築します。

このうち、xiはニューロンのi番目の入力を表し、重みwiは入力xiによるニューロンの異なるシナプス強度の特性、θはニューロンの興奮閾値、yはニューロンの出力を表します。正と負の値はそれぞれニューロンの興奮と抑制を表します。

モデルの数式は次のように表すことができます: 𝑦=∑𝑤𝑖*𝑥𝑖−𝜃、すべての入力の合計がしきい値 θ より大きい場合、y 値は正になり、ニューロンがアクティブになり、それ以外の場合はニューロンが抑制されます。このモデルは人工ニューラルネットワーク研究のための最も単純なモデルであり、今日まで使用されてきました。

このモデルはシンプルに見えますが、スケーラブルでスタック可能な機能により、実際には非常に複雑なネットワークを構築するために使用できます。どのように拡張して積み重ねるかについては、これは実際に人工ニューラル ネットワークが数十年の開発を経て解決しなければならない問題です。

このモデルを最適化するにはどうすればよいでしょうか?ここでの最適化は、実際には wi の値を変更することであり、バックプロパゲーションと呼ばれる最適化手法に頼って最適化できます。計算プロセスは、wi の偏微分を取り、それを学習率で乗算し、元の wi 値に加算することと同じです。

人工ニューラル ネットワーク モデルのアルゴリズムのアイデアは非常に単純であり、その効果はネットワーク規模が一定のレベルに達した後にのみ反映されます。ただし、ネットワークが一定の規模に達すると、計算能力とデータに対する要件が非常に高くなります。このようなアルゴリズムが 21 世紀以前に開発できなかったのはそのためです。

2000年以降、インターネットは爆発的な発展段階に入り、大量のデータが蓄積され、コンピュータの計算能力も数十のムーアサイクルを経て大きな進歩を遂げました。その結果、人工ニューラルネットワークに基づく機械学習アルゴリズムは爆発的な成長を遂げました。

さまざまな研究分野で、機械学習モデルの有効性を向上させるために人工ニューラルネットワークを使用する試みが始まっています。

畳み込みニューラル ネットワーク (MP モデルに基づく変形構造) は、コンピューター ビジョンの分野で優れたパフォーマンスを発揮し、徐々にコンピューター ビジョンの分野における基本構造へと進化してきました。リカレントニューラルネットワークと長期短期記憶ネットワーク(MP モデルに基づく別の変形構造)は、自然言語処理の分野で優れたパフォーマンスを発揮し、徐々に自然言語処理分野の基本構造へと進化してきました。

これら 2 種類のネットワーク構造はかつて非常に人気があり、現在でも多くの問題がこれら 2 種類の構造に基づくネットワーク アルゴリズムによって解決されています。彼らは人工ニューラルネットワークの機械学習アルゴリズムの開発を大きく促進しました。

しかし、研究者たちはネットワーク構造の探究を決してやめませんでした。 2017年にGoogleの研究チームは、ネットワーク構造における注意機構の表現と応用を重視したTransformerと呼ばれるネットワーク構造を提案しました。 Transformer モデルはシンプルで一貫性のある構造を持ちますが、非常に優れた結果を示します。

ChatGPTの物語はここから始まったと言えるでしょう。 Transformer モデル構造が公開された後、Transformer をベースにした多数の後続研究が実施され、さまざまな GPT モデルを含め、すべて良好な結果が得られました。

オリジナルのTransformerモデルは主に自然言語処理の分野で使用されていました。過去 2 年間の研究では、この構造はコンピューター ビジョンでも使用できることがわかっています。現在人気の Vision Transformer モデルは、コンピューター ビジョンの分野におけるその応用結果です。この傾向から判断すると、Transformer はすべてのモデル構造を統一する勢いを持っています。

ChatGPT 技術概要

ここまでの理解で、いよいよ ChatGPT が登場する番です。

ChatGPT はどのようなテクノロジーを使用していますか?簡単に列挙すると次のようになります。

  • 基本モデル構造: 注意メカニズムに基づくTransformerモデル
  • 超大規模モデルスタッキング:GPT3は、最大1750億のパラメータ数を持つ96層のネットワークをスタックします。
  • 大規模なトレーニングデータ: 45TBの生データがトレーニングに使用されました
  • 膨大なコンピューティングリソース: トレーニングは、数千のGPUを搭載したMicrosoftが特別に設計したスーパーコンピューターで実行されます。
  • 超並列トレーニング: モデルを複数のインスタンスに分散し、複数のGPUで並列計算してトレーニングを完了します。
  • 人間のフィードバックデータに基づくチューニング:大量の人間のフィードバックデータが最適化に使用され、会話がより自然でスムーズかつ論理的になります。

OpenAI は ChatGPT のトレーニングの詳細をあまり公開していないため、上記のデータはやや曖昧な推定値です。

ChatGPT が使用するコア技術は独自のものではないことは注目に値します。そのコアモデル構造である Transformer は、Google の研究成果から生まれたものです。

要約する

ChatGPT のリリース以来、多くの人がこれは人類にとって汎用人工知能に向けた画期的な進歩であると信じていますが、一方で、実際には本質的な改善はないと考える人もいます。多くの人が自分のキャリア開発に深い不安を抱いており、多くの人がSFの世界の未来に触れたと感じており、多くの人がこれはまた一攫千金のチャンスだと考えています。

おそらく、機械学習技術の原理を理解して、それを合理的に理解できるようにすることが、すべての人に必要なのでしょう。

参照する

  • Wikipedia のエントリ ロナルド・アイルマー・フィッシャーの Wikipedia のエントリ。
  • 人工知能とニューラルネットワークの開発に関する研究。
  • OpenAI が開発した ChatGPT マテリアル (人間のフィードバックによる指示に従う言語モデルのトレーニング)
  • OpenAI のオープン GPT-3 データ (言語モデルは少数ショット学習者)
  • OpenAI のオープン GPT-2 データ (言語モデルは教師なしマルチタスク学習者です)
  • OpenAI のオープン GPT データ (生成的事前トレーニングによる言語理解の向上)

<<:  AIで開発効率を高めるVSCode拡張機能9選

>>:  iOS 18はAIネイティブシステムの第1世代となるか? AppleはAIをシステムに導入することを急いでおり、史上最大のアップデートを先導している。

ブログ    
ブログ    
ブログ    

推薦する

デジタル経済における人工知能の今後の発展動向

近年、デジタル経済の継続的な発展を背景に、人工知能は急速に発展し、さまざまな応用シナリオと深く統合さ...

DNAロボットの進化!わずか数分で複雑なナノ構造のデバイスが作成され、体内に入り、タスクを実行します。

[[397076]]ビッグデータ概要著者: ミッキーSF映画には、マイクロロボットが体内に入り、有...

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

サウンド分類は、オーディオのディープラーニングで最も広く使用されている方法の 1 つです。音を分類し...

AIの成功には適切なデータアーキテクチャが必要

人工知能 (AI) を習得したいと考えている企業にとって、AI はコストを節約し、競争上の優位性を獲...

...

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

2019年12月10日、北京で百度地図生態系会議が開催され、「新世代人工知能地図」の生態パノラマが...

Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

...

...

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

最近、浙江省安吉市の竹林で、一群の超小型知能ドローンが集団で派遣され、ジャングルの中を楽々と移動した...

300 万行から 100 行へ: 機械学習により開発エクスペリエンスが向上

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...