OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DALL-Eのプレビュー版をリリースした。同時に、OpenAI はこれを人気の ChatGPT チャットボットに統合する予定です。議員らが生成型人工知能へのさらなる規制を求める中、OpenAI は物議を醸しているこの技術の利用を拡大している。

DALL-E 3と呼ばれるこの新しいツールは、ユーザーコマンドを理解し、テキストを画像に変換する能力に優れています。これは、以前のAI画像生成ツールでは困難だったことです。 OpenAIの研究者らは、言語の進歩により、DALL-E 3は複雑な指示をより適切に解析し、詳細な要求内の紛らわしい要素を回避できると述べている。

「一般ユーザーは ChatGPT チャットボットにログインして、漠然とした質問をすることができます」と、DALL-E 3 のチームリーダーである Aditya Ramesh 氏は述べています。プレゼンテーションの中で、Ramesh 氏は、Mountain Ramen という会社のさまざまなロゴシナリオをテストしている事業主の例を紹介しました。

この新しいツールは現在、初期テストのために少数のユーザーに提供されていますが、OpenAI は 10 月に ChatGPT の有料加入者にも公開し、この技術を利用できる人の数を大幅に増やす予定です。

OpenAIはますます高まる競争圧力に直面している。 Google の AI を活用した製品の相次ぐ発売により、DALL-E と OpenAI の主力チャットボットのトラフィックと月間ユーザー数の増加が鈍化している。しかし、OpenAI は、その斬新な画像ジェネレーターを ChatGPT に組み込むことで市場を拡大し、この技術を単独の製品ではなくチャットボットの機能として位置付けています。

オープンAIの広報ディレクター、リンジー・ボルトン氏は、DALL-E 3は発売時に不具合があったため、記者会見に出席したジャーナリストらはこの機能をテストできなかったと述べた。しかし、OpenAIはその後、DALL-E 3は水曜日のリリースまでに安定するだろうと述べた。

これまでにリリースされた DALL-E 2、Midjourney、Stable Diffusion などのテキストから画像へのジェネレーターは、早い段階でユーザーを魅了し、技術的なスキルを必要とせずに高度なソフトウェア機能を習得する機会を一般の人々に提供しました。広告主、マーケティング担当者、政治家、ビデオゲーム開発者は皆、キャンペーンを実行するためにこれらのツールを使用しています。

しかし、データ分析会社シミラーウェブのデータによると、DALL-Eツールへのオンライン訪問数は、OpenAIがChatGPTの基盤技術をアップグレードした2023年3月のピーク時の3,200万件から、8月には約1,300万件に減少している。

テキストから画像を生成するAI技術の将来は不透明であるものの、その発展にはほとんど限界がなく、リアルな画像を生成する能力が大きな社会的、政治的影響を及ぼす可能性があるという懸念が生じている。

旧バージョンの DALL-E で生成された道路標識やテキストは非常にごちゃごちゃして見えたため、AI で生成された画像を簡単に識別できました。しかし、DALL-E 3 の改良により、素人が画像が本物かどうかを判断することがより困難になりました。「もはや自分の目は信用できない」と、デジタルフォレンジックを研究し、アドビと協力してコンテンツ真正性イニシアチブを支援しているカリフォルニア大学バークレー校の教授、ハニー・ファリド氏は言う。

ファリド氏は、AI はおよそ 6 か月ごとに現実世界を模倣する能力が向上するため、DALL-E 3 の改良は驚くべきことではないと強調した。彼は、人工知能から人間の創造物を取り除くための先進技術が必要だと訴えた。

OpenAIの競合企業であるStability AIとMidjourneyは、生成AIモデルのトレーニングに必要な膨大な量のインターネットデータに関して著作権侵害を主張するアーティストやゲッティイメージズからの訴訟に直面している。

法執行機関、規制当局、擁護団体は最近、これらのツールがどのように使用されているかに注目し始めている。たとえば、ディープフェイクのアダルトコンテンツや、次期大統領選挙に向けた AI 生成の広告の作成などだ。

DALL-E 3チームは、これらのリスクを優先し、最悪のシナリオをテストし、その経験を会社の対応戦略に組み込むために外部の専門家の「レッドチーム」を招集したと述べた。

DALL-E 2については、OpenAIはシステムカードでプロセスの詳細な概要を公開し、AIモデルの開発、微調整、安全性テストに関する公開手順を詳述しました。政策研究者のサンディニ・アガルワル氏は、OpenAIはDALL-E 3が一般に公開される前に同様のカードをリリースする予定だと述べた。 6月のホワイトハウスサミットでの自主的な取り組みの一環として、OpenAIは、画像を透かしで埋め込んだり、コンテンツを作成したサービスやモデルを示す来歴データをエンコードしたりするなどの方法を通じて、AIによって生成されたビデオやオーディオコンテンツを識別するための防止メカニズムを開発し、導入することに合意した。ラメシュ氏は、DALL-E 3は画像の出所やコンテンツの「由来」を調べることができる分類装置を実験中であり、これはホワイトハウスの公約にも記載されている手法だと述べた。

オープンソースのモデルライブラリ企業ハギング・フェイスの研究科学者で、グーグルの倫理的AIの元共同責任者であるマーガレット・ミッチェル氏は、これらのメカニズムはディープフェイクの識別に役立つと同時に、アーティストが自分の作品が同意や報酬なしにモデルのトレーニングに使用されたかどうかを追跡するのにも役立つと述べた。

ミッチェル氏はさらにこう付け加えた。「これは必ずしも会社の利益になるわけではないが、より一般大衆の利益になると思う。」

<<: ChatGPT を使用して Web アプリケーションを構築する方法は?

>>:

ますます大きく、さらに大きく：AI 研究は長期的には行き詰まりに陥るのでしょうか?

OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

ますます大きく、さらに大きく：AI 研究は長期的には行き詰まりに陥るのでしょうか?

LLM の成功に欠かせない基礎: RLHF とその代替技術

小売業界におけるRPA活用事例11選

シリコンバレーのAI界で注目の記事：ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

AI アシスタントの人気が高まっていますが、次に購入するスマートフォンはなぜ電話なのでしょうか?

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る？

[探索] 機械学習モデルのトレーニングをサポートする 8 つの JavaScript フレームワーク

極端なケースによって引き起こされた議論: アルゴリズムがあなたが死にたいと考えた時...

推薦する

モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

マイクロソフト、自然言語インターフェース開発を簡素化する TypeChat ライブラリを発表

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

機械学習がインドのヘルスケア分野に変化をもたらす

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

人工知能はユーザーのメッセージング体験を変える

「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

従来のジムも人工知能によって消滅してしまうのでしょうか？

強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

人工知能＋機械学習＋ディープラーニングの関係を理解するのに役立ちます

「未来ロボット」が1億元の資金調達を完了。自動物流が次の「阿修羅場」となるか？

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

顔認識の混乱が蔓延しています。企業は規制に準拠しながら顔認識技術をどのように適用できるでしょうか?

Googleの検索アルゴリズムがユーザーをより深く理解する方法