この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2か月前にインターネット上で話題を呼んだAI設計の巨匠CLIPの脳が、OpenAIによって「公開」された。 意外にも、この強力な AI は人間の思考方法と非常によく似ています。
たとえば、「フライドチキン」という言葉を聞いたり、実際にフライドチキンを見たりすれば、よだれが出るかもしれません。なぜなら、あなたの脳にはフライドチキンに反応する役割を特に担う「フライドチキンニューロン」のグループがあるからです。 このCLIPも同様です。 「スパイダーマン」という言葉を聞いたり、スパイダーマンの写真を見たりするだけで、CLIPの特定の領域が反応し始め、もともと赤や青に反応する領域までもが「興奮」するようになります。 OpenAI は、CLIP に実際に「スパイダーマン ニューロン」があることを発見しました。 これは脳科学においては何も新しいことではありません。なぜなら、15年も前に、人間の脳を研究している科学者たちは、顔がニューロンのグループに対応していることを発見したからです。 しかし、これは AI にとって大きな前進です。以前は、テキストを画像に変換したり、画像をテキストに変換したりするために 2 つのシステムが使用されていましたが、それらは異なる方法で動作していました。 しかし、CLIP は人間の脳と非常によく似た動作方法を持っています。CV と NLP は技術的につながっていることだけでなく、脳内の思考も同じで、専用の処理領域があります。 二人の類似性を見て、一部のネットユーザーは次のようにコメントした。
さらに、OpenAI は、CLIP の画像に対する反応が、感情に反応するニューロンを含むてんかん患者の脳内のニューロンと似ていることに驚きました。将来的にはAIが神経疾患の治療に役立つかもしれません。 AIの「脳」は実は人間と同じこれまで何が起こったのか、そしてCLIPとは何なのかを振り返ってみましょう。 少し前に、OpenAI は GPT-3 から派生し、テキストの説明に従って正確に画像を生成できるDALL·E をリリースしました。 DALL·E の自然言語と画像の理解と統合は前例のないものです。発売されるとすぐに、Andrew Ng 氏や Keras の父などの著名人から賞賛を集めました。 DALL·Eの核となる部分はCLIPです。 簡単に言えば、CLIP は DALL·E によって生成されたすべての結果をチェックし、適切なものを選択して表示する再ランキング モデルです。 CLIP の「判断」能力は、テキストと画像の意味を「融合」して理解する能力と切り離せないものですが、この能力がどこから来るのかは誰も知りませんでした。 OpenAIはその後、CLIPニューラルネットワークの原理構造を深く掘り下げ、そのマルチモーダルニューロンが人間の脳と同様の動作メカニズムを持っていることを発見しました。つまり、ニューロンはテキストと画像の同じ意味に同時に反応できるのです。 いわゆるモダリティとは、複数の異なる特徴を含むプロセスまたは何かを指します。画像は通常、ラベルやテキストの説明と関連付けられており、物事を完全に理解するための要素です。 たとえば、 「Spider-Man」または「Spiderman」という 3 つの単語を見ると、赤と青のタイツを着たスーパーヒーローを思い浮かべることができます。 このコンセプトに慣れると、次のような白黒の手描きの絵を見ても、これがスパイダーマンだとすぐにわかります。 CLIP のマルチモーダルニューロンは、人間のものと変わらない能力を持っています。 OpenAI は、18 個の動物ニューロンと 19 個の有名人ニューロンを含む、特定の事柄に特に関与するニューロンをいくつか発見しました。 感情を理解するために特別に設計されたニューロンさえあります。 実際、人間自体がマルチモーダル学習の総体です。私たちは物体を見ることができ、音を聞き、質感を感じ、匂いを嗅ぎ、味を味わうことができます。 AIがこれまでの「人工知能」型の機械的な作業方法から脱却するためには、人間のようにマルチモーダルな信号を同時に理解できるようにするのが一つの道です。 そのため、マルチモーダル学習こそが人工知能の発展の真の方向であると考える研究者もいます。 実装では、通常、異なる要素の認識サブネットワークの出力は重み付けされて結合され、各入力モダリティが出力予測に学習された貢献を行えるようになります。 タスクに応じて、サブネットと予測出力に異なる重みを付加して、ニューラル ネットワークのさまざまなパフォーマンスを実現できます。 CLIP について具体的に言うと、言語モデルから生まれたものであり、画像よりもテキストに敏感であることが研究者のテスト結果から明確にわかります。 AIを攻撃するのも簡単だしかし、AIの「心」におけるテキストと画像の連携は諸刃の剣です。 プードルの体にドル記号をいくつか追加すると、CLIP はそれを貯金箱として認識します。 OpenAI はこの種の攻撃を「タイポグラフィ攻撃」と呼んでいます。 つまり、複雑な技術を必要とせずに、画像にテキストを挿入して AI を攻撃できるということです。 紙とペンさえあれば、AI を解読するのはかつてないほど簡単になりました。 こうしてリンゴは「Apple」iPodへと変身したのです。 ネットユーザーの中には、Apple を図書館に改造した人もいました。 中国のネットユーザーはもっとよく知っているはずだ。お守りを使ってゾンビを封印するように、AIも封印できるようだ。 CLIP には、敵対的攻撃を防ぐための作業がまだたくさん残っています。 AIブラックボックスはそれほど黒くないそれでも、「マルチモーダルニューロン」は、AI の説明可能性における重要なブレークスルーです。 使いやすさと説明可能性は、ケーキを食べてケーキも残しておくようなものです。 現在使用している最も精度の高い画像認識モデルは解釈性が低いです。しかし、説明可能な AI によって作成されたモデルを実際に適用するのは困難です。 AIは単に実用的なものになるだけではありません。 AI医療や自動運転車の背後にある理由を理解しなければ、倫理性が問われることになる。 OpenAIによれば、脳とCLIPのような合成視覚システムは、情報を整理する方法が非常に似ているようだという。 CLIP は、AI システムが私たちが考えていたほど暗くないということを事実で証明しています。 CLIP はデザインマスターであるだけでなく、将来的に AI のエラーやバイアスを軽減できる可能性のあるオープンブレイン AI でもあります。 |
<<: 20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表
>>: 自動運転車が急カーブを曲がるときに車線を検知する3つの技術
Mathematica Wolfram の最新バージョンでは、大規模言語モデル (LLM) が正式に...
顔認識技術の賛否は議論の余地がある。多くの利害関係者は利点を強調したが、批評家は欠点も指摘した。顔認...
翻訳者 | ジン・ヤンレビュー | Chonglou世界中のアナリストが、今後のテクノロジートレンド...
人工知能における競争は優秀な人材に基づいて行われます。国の将来の発展方向として、AI技術は経済発展、...
人工知能技術の発展に伴い、その用途は豊富かつ多様化しており、画像との組み合わせにおいては、AI顔認識...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[231414]]会計、税務、監査などの業務でロボットが人間に取って代わったらどうなるか想像してみ...
時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...
7月16日、一部のネットユーザーは、米国で最も重要な法律文書である米国憲法を、人工知能による執筆を検...
IoT および AI ベースのデバイスは、私たちの中毒的な習慣をきめ細かなレベルで監視できるため、ユ...
人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...
2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...
大規模言語モデル (LLM) は、適切なプロンプトがあれば、多くの自然言語処理タスクにとって強力なツ...