解説: ジェネレーティブ AI の仕組みとその違い

解説: ジェネレーティブ AI の仕組みとその違い

ChatGPT のような強力な生成 AI システムはどのように機能し、他の種類の人工知能とどう違うのでしょうか?

見出しをざっと見てみると、最近では生成 AI がいたるところに存在していることがわかります。実際、これらの見出しのいくつかは、人間が書いたように見えるテキストを生成する驚異的な能力を実証したチャットボットであるOpenAIのChatGPTなどの生成AIによって実際に書かれた可能性があります。

しかし、「生成 AI」と言うとき、人々は正確には何を意味するのでしょうか?

過去数年間の生成型 AI ブームが起こる前は、AI について話すときは、データに基づいて予測を行うことを学習する機械学習モデルについて話していたのが一般的でした。このようなモデルは、何百万もの例を使用してトレーニングされ、たとえば、特定のX線写真に腫瘍の兆候が見られるかどうか、または特定の借り手がローンの返済を怠る可能性があるかどうかを予測します。

生成 AI は、特定のデータセットについて予測を行うのではなく、新しいデータを作成するようにトレーニングされた機械学習モデルと考えることができます。生成 AI システムとは、トレーニングに使用したデータに似たオブジェクトをさらに生成することを学習するシステムです。

「生成型 AI と他の種類の AI の実際の仕組みに関しては、その区別が少し曖昧になることがあります。多くの場合、同じアルゴリズムを両方に使用できます」と、MIT の電気工学およびコンピューター サイエンスの准教授であり、コンピューター サイエンスおよび人工知能研究所 (CSAIL) のメンバーであるフィリップ イゾラ氏は言います。

ChatGPT やその類似品のリリースによって生み出された誇大宣伝にもかかわらず、テクノロジー自体はまったく新しいものではありません。これらの強力な機械学習モデルは、50 年以上にわたる研究とコンピューティングの進歩に基づいています。

複雑さの増大

生成 AI の初期の例としては、マルコフ連鎖と呼ばれるより単純なモデルがありました。この手法は、ランダムプロセスの動作をモデル化するために 1906 年にこの統計手法を導入したロシアの数学者アンドレイ・マルコフにちなんで名付けられました。機械学習では、電子メール プログラムのオートコンプリート機能など、次の単語を予測するタスクにマルコフ モデルが長い間使用されてきました。

テキスト予測では、マルコフ モデルが前の単語または前のいくつかの単語を参照して、文中の次の単語を生成します。しかし、これらの単純なモデルは過去にさかのぼることしかできないため、もっともらしいテキストを生成するのが得意ではないと、MITのトーマス・シーベル電気工学およびコンピューターサイエンス教授で、CSAILおよびデータ・システム・社会研究所(IDSS)のメンバーでもあるトミー・ヤッコラ氏は言う。

「私たちは過去 10 年間、さまざまなものを生成してきましたが、ここでの主な違いは、生成できるオブジェクトの複雑さと、これらのモデルをトレーニングできる規模です」と彼は説明した。

ほんの数年前までは、研究者は特定のデータセットを最大限に活用できる機械学習アルゴリズムを見つけることに重点を置いていました。しかし、その焦点は多少変化しており、現在では多くの研究者が、おそらく数億、あるいは数十億のデータポイントを含む、はるかに大規模なデータセットを使用して、印象的な結果を達成するモデルをトレーニングしています。

ChatGPT や同様のシステムの基盤となるモデルは、マルコフ モデルとほぼ同じように動作します。しかし、大きな違いは、ChatGPT は数十億のパラメータを持ち、はるかに大きく複雑であるということです。大量のデータ、この場合はインターネット上で公開されているテキストのほとんどを使ってトレーニングされています。

この膨大なテキストコーパスでは、単語や文が特定の依存関係を持つ順序で出現します。この反復性により、モデルはテキストをある程度予測可能な統計的なチャンクに分割する方法を学習できるようになります。テキストのチャンクのパターンを学習し、その知識を使用して次に何が起こるかについてのアイデアを生み出します。

より強力なアーキテクチャ

より大規模なデータセットが生成型 AI ブームのきっかけの 1 つとなった一方で、さまざまな主要な研究の進歩によって、より複雑なディープラーニング アーキテクチャも生まれました。

2014 年、モントリオール大学の研究者は、生成的敵対的ネットワーク (GAN) と呼ばれる機械学習アーキテクチャを提案しました。 GAN は連携して動作する 2 つのモデルを使用します。1 つはターゲット出力 (画像など) を生成することを学習し、もう 1 つは実際のデータとジェネレーターの出力を区別することを学習します。ジェネレーターはディスクリミネーターを騙そうとし、その過程でより現実的な出力を生成する方法を学習します。画像ジェネレーター StyleGAN は、これらのタイプのモデルに基づいています。

1年後、スタンフォード大学とカリフォルニア大学バークレー校の研究者が拡散モデルを発表しました。これらのモデルは、出力を反復的に最適化することで、トレーニング データセット内のサンプルに類似し、リアルな画像を作成するために使用された新しいデータ サンプルを生成することを学習できます。安定拡散モデルは、テキストから画像への生成システムの安定拡散の中核です。

2017 年、Google の研究者はトランスフォーマー アーキテクチャを導入しました。これは、ChatGPT を動かすような大規模な言語モデルの開発に使用されています。自然言語処理では、トランスフォーマーはテキストコーパス内の各単語をトークンにエンコードし、各トークンと他のすべてのトークンの関係をキャプチャするアテンションマップを生成します。このアテンション マップは、トランスフォーマーが新しいテキストを生成するときにコンテキストを理解するのに役立ちます。

これらは、生成 AI に使用できる多くの方法のうちのほんの一部です。

幅広い用途

これらすべてのメソッドに共通するのは、入力をデータのチャンクの数値表現であるトークンのセットに変換することです。データをこの標準トークン形式に変換できる限り、理論的にはこれらの方法を適用して、類似した新しいデータを生成できます。

「データのノイズの多さや信号抽出の難しさによって結果は異なるかもしれないが、汎用 CPU があらゆる種類のデータを取り込んで均一な方法で処理できるようになる段階に確実に近づいている」と Isola 氏は言う。

これにより、生成 AI のさまざまなアプリケーションが実現可能になります。

たとえば、Isola のチームは生成 AI を使用して、コンピューター ビジョン モデルにオブジェクトの認識方法を教えるなど、別のインテリジェント システムをトレーニングするために使用できる合成画像データを作成しています。

Jaakkola 氏のチームは、生成 AI を使用して新しいタンパク質構造や効率的な結晶構造を設計し、新しい材料を特定しています。彼は、生成モデルが言語の依存関係を学習するのと同じように、結晶構造が示されれば、その構造を安定させ実現可能にする関係を学習できると説明しています。

ただし、生成モデルは驚くべき結果を達成できますが、すべての種類のデータに最適な選択肢というわけではありません。スプレッドシートの表形式データなど、構造化データに対する予測を行うタスクでは、生成 AI モデルが従来の機械学習アプローチよりも優れている傾向があると、MIT の電気工学およびコンピューターサイエンスの Andrew and Erna Viterbi 教授であり、IDSS および情報意思決定システム研究所のメンバーでもある Devavrat Shah 氏は述べています。

「私の考えでは、その最大の価値は、人間に優しい機械のための優れたインターフェースであることです。以前は、人間は機械の言語で機械に話しかけなければ、物事は進みませんでした。今では、このインターフェースは人間と機械の両方と話す方法を見つけ出しました」とシャー氏は語った。

危険信号

生成型 AI チャットボットは現在、コール センターで人間の顧客からの質問に答えるために使用されていますが、このアプリケーションは、これらのモデルを実装する際の潜在的な危険信号、つまり労働者の置き換えを浮き彫りにしています。

さらに、生成 AI はトレーニング データ内に存在する偏見を継承して増殖させたり、ヘイトスピーチや虚偽の発言を増幅させたりする可能性があります。これらのモデルには盗作機能があり、特定の人間の作成者によって作成されたように見えるコンテンツを生成する可能性があり、潜在的な著作権の問題を引き起こします。

一方、シャー氏は、生成 AI によってアーティストが力を得ることができ、アーティストは生成ツールを使用して、他の手段では制作できないような創造的なコンテンツを制作できるようになると提案しました。

将来的には、生成 AI が多くの分野の経済を変えるだろうと彼は考えています。

Isola 氏は、生成 AI の将来的な有望な方向性は、それを製造業に活用することだと考えています。モデルに椅子のイメージを生成させるのではなく、製造可能な椅子の設計図を生成します。

彼はまた、将来的には生成 AI システムを使用して、より汎用的なインテリジェント AI エージェントを開発すると考えています。

「これらのモデルの仕組みと人間の脳の仕組みの考え方には違いがありますが、類似点もあると思います。人間には頭の中で考えたり夢を見たり、興味深いアイデアや計画を考えたりする能力があり、生成AIはエージェントがそれを実行できるようにするツールの1つだと思います」とイゾラ氏は語った。

<<: 

>>:  ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ブログ    
ブログ    
ブログ    

推薦する

ChatGPTのウェブサイトのトラフィックは3か月連続で減少しており、8月の訪問数は3.2%減の14億3000万回となった。

分析会社シミラーウェブが9月8日に発表した最新データによると、人工知能チャットロボット「ChatGP...

2019 年にトップ CIO が AI を導入する 5 つの方法

多くの企業が AI のビジネスケースを模索し、経営陣の支援を求め、基本的な IT およびデータ機能を...

...

Baidu PaddlePaddleは4つの新しい業界アプリケーション開発キットをリリースし、業界インテリジェンスのアップグレードを支援するマスターモードを革新しました

産業社会の急速かつ安定した発展は、完璧なインフラと切り離すことはできません。ディープラーニングフレー...

...

...

...

ChatGPTの背後にある技術的進化を分析する

1. 自然言語理解と言語モデル1.1 自然言語処理自然言語処理 (NLP) は人工知能 (AI) の...

認知科学から進化まで、強化学習における最新の2つのブレークスルーを詳しく説明します

ビッグデータダイジェスト制作編纂者:李磊、銭天培近年、深層強化学習 (Deep RL) は人工知能に...

企業向けの優れたビジネス インテリジェンス ツール 10 選

規模に関係なく、企業はニーズに合わせてカスタマイズされたビジネス インテリジェンス ツールを使用して...

大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...

人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる

海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究...

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

現在、主要なOTA(オンライン旅行代理店)プラットフォームは人々の旅行を大幅に容易にしています。ホテ...

CNNの簡単な分析と、長年にわたるImageNetチャンピオンモデルの分析

[[189678]]今日は、ディープラーニングにおける畳み込みニューラル ネットワークのいくつかの原...