この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2か月前にインターネット上で話題を呼んだAI設計の巨匠CLIPの脳が、OpenAIによって「公開」された。 意外にも、この強力な AI は人間の思考方法と非常によく似ています。
たとえば、「フライドチキン」という言葉を聞いたり、実際にフライドチキンを見たりすれば、よだれが出るかもしれません。なぜなら、あなたの脳にはフライドチキンに反応する役割を特に担う「フライドチキンニューロン」のグループがあるからです。 このCLIPも同様です。 「スパイダーマン」という言葉を聞いたり、スパイダーマンの写真を見たりするだけで、CLIPの特定の領域が反応し始め、もともと赤や青に反応する領域までもが「興奮」するようになります。 OpenAI は、CLIP に実際に「スパイダーマン ニューロン」があることを発見しました。 これは脳科学においては何も新しいことではありません。なぜなら、15年も前に、人間の脳を研究している科学者たちは、顔がニューロンのグループに対応していることを発見したからです。 しかし、これは AI にとって大きな前進です。以前は、テキストを画像に変換したり、画像をテキストに変換したりするために 2 つのシステムが使用されていましたが、それらは異なる方法で動作していました。 しかし、CLIP は人間の脳と非常によく似た動作方法を持っています。CV と NLP は技術的につながっていることだけでなく、脳内の思考も同じで、専用の処理領域があります。 二人の類似性を見て、一部のネットユーザーは次のようにコメントした。
さらに、OpenAI は、CLIP の画像に対する反応が、感情に反応するニューロンを含むてんかん患者の脳内のニューロンと似ていることに驚きました。将来的にはAIが神経疾患の治療に役立つかもしれません。 AIの「脳」は実は人間と同じこれまで何が起こったのか、そしてCLIPとは何なのかを振り返ってみましょう。 少し前に、OpenAI は GPT-3 から派生し、テキストの説明に従って正確に画像を生成できるDALL·E をリリースしました。 DALL·E の自然言語と画像の理解と統合は前例のないものです。発売されるとすぐに、Andrew Ng 氏や Keras の父などの著名人から賞賛を集めました。 DALL·Eの核となる部分はCLIPです。 簡単に言えば、CLIP は DALL·E によって生成されたすべての結果をチェックし、適切なものを選択して表示する再ランキング モデルです。 CLIP の「判断」能力は、テキストと画像の意味を「融合」して理解する能力と切り離せないものですが、この能力がどこから来るのかは誰も知りませんでした。 OpenAIはその後、CLIPニューラルネットワークの原理構造を深く掘り下げ、そのマルチモーダルニューロンが人間の脳と同様の動作メカニズムを持っていることを発見しました。つまり、ニューロンはテキストと画像の同じ意味に同時に反応できるのです。 いわゆるモダリティとは、複数の異なる特徴を含むプロセスまたは何かを指します。画像は通常、ラベルやテキストの説明と関連付けられており、物事を完全に理解するための要素です。 たとえば、 「Spider-Man」または「Spiderman」という 3 つの単語を見ると、赤と青のタイツを着たスーパーヒーローを思い浮かべることができます。 このコンセプトに慣れると、次のような白黒の手描きの絵を見ても、これがスパイダーマンだとすぐにわかります。 CLIP のマルチモーダルニューロンは、人間のものと変わらない能力を持っています。 OpenAI は、18 個の動物ニューロンと 19 個の有名人ニューロンを含む、特定の事柄に特に関与するニューロンをいくつか発見しました。 感情を理解するために特別に設計されたニューロンさえあります。 実際、人間自体がマルチモーダル学習の総体です。私たちは物体を見ることができ、音を聞き、質感を感じ、匂いを嗅ぎ、味を味わうことができます。 AIがこれまでの「人工知能」型の機械的な作業方法から脱却するためには、人間のようにマルチモーダルな信号を同時に理解できるようにするのが一つの道です。 そのため、マルチモーダル学習こそが人工知能の発展の真の方向であると考える研究者もいます。 実装では、通常、異なる要素の認識サブネットワークの出力は重み付けされて結合され、各入力モダリティが出力予測に学習された貢献を行えるようになります。 タスクに応じて、サブネットと予測出力に異なる重みを付加して、ニューラル ネットワークのさまざまなパフォーマンスを実現できます。 CLIP について具体的に言うと、言語モデルから生まれたものであり、画像よりもテキストに敏感であることが研究者のテスト結果から明確にわかります。 AIを攻撃するのも簡単だしかし、AIの「心」におけるテキストと画像の連携は諸刃の剣です。 プードルの体にドル記号をいくつか追加すると、CLIP はそれを貯金箱として認識します。 OpenAI はこの種の攻撃を「タイポグラフィ攻撃」と呼んでいます。 つまり、複雑な技術を必要とせずに、画像にテキストを挿入して AI を攻撃できるということです。 紙とペンさえあれば、AI を解読するのはかつてないほど簡単になりました。 こうしてリンゴは「Apple」iPodへと変身したのです。 ネットユーザーの中には、Apple を図書館に改造した人もいました。 中国のネットユーザーはもっとよく知っているはずだ。お守りを使ってゾンビを封印するように、AIも封印できるようだ。 CLIP には、敵対的攻撃を防ぐための作業がまだたくさん残っています。 AIブラックボックスはそれほど黒くないそれでも、「マルチモーダルニューロン」は、AI の説明可能性における重要なブレークスルーです。 使いやすさと説明可能性は、ケーキを食べてケーキも残しておくようなものです。 現在使用している最も精度の高い画像認識モデルは解釈性が低いです。しかし、説明可能な AI によって作成されたモデルを実際に適用するのは困難です。 AIは単に実用的なものになるだけではありません。 AI医療や自動運転車の背後にある理由を理解しなければ、倫理性が問われることになる。 OpenAIによれば、脳とCLIPのような合成視覚システムは、情報を整理する方法が非常に似ているようだという。 CLIP は、AI システムが私たちが考えていたほど暗くないということを事実で証明しています。 CLIP はデザインマスターであるだけでなく、将来的に AI のエラーやバイアスを軽減できる可能性のあるオープンブレイン AI でもあります。 |
<<: 20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表
>>: 自動運転車が急カーブを曲がるときに車線を検知する3つの技術
現在、インターネット上では個人のプライバシー情報の漏洩が頻繁に発生しています。アプリは多くの場合、ユ...
人工知能の時代において、機械学習、自然言語処理 (NLP)、認知検索技術が急速に導入されているのは当...
チャットボットの開発は、複数のテクノロジーとツールを組み合わせて使用する必要がある複雑で困難な作...
【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...
ディープラーニングの父ヒントン氏:次世代ニューラルネットワーク SIGIRは、情報検索の分野における...
EMNLP は自然言語処理の分野におけるトップカンファレンスの 1 つです。EMNLP 2023 ...
執筆者:Qianshan最近、海外メディアAnalytics India Magazineによると、...
人工知能(AI)は今日最もホットな話題の一つです。最近の進歩は文字通りそれ自体を物語っています。GP...
多くの注意深い国民は、気づかないうちに銀行支店の数が減少していることに気づいています。予備統計による...
画像ソース: unsplash 30秒で読める1.複数の人工知能技術サービスプロバイダーがIT Ti...
[[192924]] Pegasystems の調査によると、消費者は人工知能が人間の顧客サービスと...
技術の進歩はあらゆる産業革命の原動力となってきましたが、人類社会は人工知能技術の進歩により、いわゆる...