人工知能の「想像力」を実現する

人工知能の「想像力」を実現する

[[416371]]

[51CTO.com クイック翻訳]まず、オレンジ色の猫を頭の中で想像してください。次に、同じ猫の毛が真っ黒になっているところを想像してください。さて、そんな猫が万里の長城に沿って闊歩しているところを想像してみてください。

こうした想像の最中、脳内の一連のニューロンが、世界に対するこれまでの理解に基づいて、さまざまなイメージを素早く生成します。つまり、人間は異なる特性を持つ物体を持つことが容易なのです。しかし、コンピューターに関しては、ディープ ニューラル ネットワークが特定のタスクにおいて人間のパフォーマンスに匹敵、あるいはそれを凌駕するほどの画期的な成果を上げているにもかかわらず、人間の「想像力」に対抗することはまだできていない。

現在、USC の研究者チームは、人間のような能力を使って、これまでとは異なる特性を持つ物体を想像する新しい AI を開発しました。この論文「Zero-Shot Synthesis with Group-Supervised Learning」は、今年5月7日にICLR2021(ディープラーニング分野のトップ学術会議)で発表されました。

「私たちは人間の視覚の一般化能力にヒントを得て、人間の想像力を機械でシミュレートしようとしました」と、この研究の主執筆者であるユンハオ・ゲ氏は語った。「人間は、学習したことをさまざまな属性(形状、姿勢、位置、色など)で分離し、それらを再結合して新しい物体を想像することができます。私たちの論文は、ニューラルネットワークを使用してこのプロセスをシミュレートしようとしています。」

人工知能の一般化

たとえば、車の画像を生成する AI システムを作成したいとします。理想的には、アルゴリズムに車の写真を何枚か入力して、ポルシェからポンティアック、ピックアップトラックまで、あらゆるメーカー、形状、色の車の写真をさまざまな角度から生成させることができます。

これは人工知能が長年追求してきた目標の 1 つであり、推論を実行できるモデルを作成することです。この目標を達成するということは、いくつかの例が与えられた場合に、モデルが基本的なルールを抽出し、それをこれまでに見たことのない多数の新しい例に適用できることを意味します。しかし、機械は通常、オブジェクトの属性を考慮せずに、ピクセルなどのサンプルの特徴に基づいてトレーニングされます。

想像力の科学

新しい研究では、研究者らは「分離」と呼ばれる概念を使ってこの限界を克服しようとした。 「デエンタングルメント」は「ディープフェイク」にも利用でき、葛雲豪氏は、人の顔の表情や特徴を「デエンタングルメント」して「フェイススワッピング」することで、元の動きはそのままに、元の持ち主のアイデンティティを別の人物に置き換え、新たな画像や動画を合成できると述べた。同様に、新しい手法では、従来のアルゴリズムのように一度に 1 枚ずつではなく、サンプル画像のセットを取得し、それらの類似点を掘り起こして、「制御可能な分離表現学習」と呼ばれるものを実現します。そして、この知識を組み換えることで、「新しいイメージの制御可能な合成」、つまり「想像力」を実現します。

彼はトランスフォーマーの例を挙げた。メガトロンの形、バンブルビーの色、ニューヨークのタイムズスクエアの背景などは映画から取り入れることができる。その結果、訓練中には見ら​​れなかったものの、タイムズスクエアを疾走するバンブルビー色のメガトロンカーが誕生した。

このプロセスは人間の推論に似ています。人間が 1 つの物体の色を見ると、元の色を新しい色に置き換えることで、その色を他の物体に簡単に適用できます。研究チームはこの技術を使って、この分野の将来の研究に役立つ156万枚の画像の新しいデータセットを生成した。

世界を理解する

もつれ解除は新しいアイデアではないが、研究者らは、このフレームワークはほぼあらゆる種類のデータや知識と互換性があり、応用の機会が広がると述べている。たとえば、敏感な属性を方程式から完全に排除し、人種や性別に関する知識を除外することで、AI はより公平になる可能性があります。

例えば、医療分野では、薬物の機能を他の特性から分離し、それらを再結合して新しい薬物を合成することで、医師や生物学者がより有用な薬物を発見するのに役立ちます。自動運転の分野では、自動運転車がトレーニング中に見たことのない危険なシナリオを想像して回避できるようにすることで、より安全な人工知能の作成を促進します。

「ディープラーニングは多くの分野で比類のないパフォーマンスと将来性を示してきましたが、これは多くの場合、各個人をユニークにする特性を深く理解することなく、浅はかな模倣によって達成されてきました」と、コンピューターサイエンスの教授であるローレン・イッティ氏は語ります。「この新しい『脱エンタングルメント』アプローチは、AIシステムの想像力を真に解き放ち、それを人間の世界理解に近づける初めてのものです。」

オリジナルリンク: 人工知能の「想像力」を可能にする

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  中国は人工知能研究で米国を追い越している

>>:  Githubには13,000個のスターがある。JAXの急速な発展はTensorFlowやPyTorchに匹敵する

ブログ    
ブログ    

推薦する

自動化はウエスタン証券のデジタル従業員にとっての出発点

金融テクノロジーと伝統テクノロジーの相互支援は、徐々に証券業界の発展の中核的な原動力となってきました...

空中で疫病と戦うドローン

新型コロナウイルス肺炎の流行が始まって以来、多くのハイテク技術がこの疫病との戦いに後方支援を提供して...

...

YOLO-NAS: 最も効率的なターゲット検出アルゴリズムの1つ

YOLO-NAS 物体検出導入YOLO (You Only Look Once) は、ディープ ニュ...

それは杞憂ではありません!人工知能が人間の労働に取って代わろうとしている

[[261973]]最近、人工知能に対する大規模な企業投資が数多く行われており、この技術が実用化され...

AI システムを監査する際に尋ねるべき 9 つの質問

翻訳: ブガッティ企画:千山ほとんどの企業は、記録システムの IT 監査を毎年実施しています。しかし...

実用的なヒント | 機械学習における不均衡な分類問題にどう対処するか?

機械学習などのデータ サイエンスの問題を扱う場合、カテゴリの分布が不均衡な状況、つまりサンプル デー...

人工知能に置き換えられる可能性が最も高い 12 の職業、あなたの職業もその中に含まれていますか?

AlphaGo が囲碁の名人に勝利し、百度の無人自動車が第五環状線を走行し、マイクロソフトの Xi...

...

...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...

...

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

大規模言語モデル (LLM) 圧縮は常に大きな注目を集めています。トレーニング後の量子化は、一般的に...