OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DALL-Eのプレビュー版をリリースした。同時に、OpenAI はこれを人気の ChatGPT チャットボットに統合する予定です。議員らが生成型人工知能へのさらなる規制を求める中、OpenAI は物議を醸しているこの技術の利用を拡大している。

DALL-E 3と呼ばれるこの新しいツールは、ユーザーコマンドを理解し、テキストを画像に変換する能力に優れています。これは、以前のAI画像生成ツールでは困難だったことです。 OpenAIの研究者らは、言語の進歩により、DALL-E 3は複雑な指示をより適切に解析し、詳細な要求内の紛らわしい要素を回避できると述べている。

「一般ユーザーは ChatGPT チャットボットにログインして、漠然とした質問をすることができます」と、DALL-E 3 のチームリーダーである Aditya Ramesh 氏は述べています。プレゼンテーションの中で、Ramesh 氏は、Mountain Ramen という会社のさまざまなロゴ シナリオをテストしている事業主の例を紹介しました。

この新しいツールは現在、初期テストのために少数のユーザーに提供されていますが、OpenAI は 10 月に ChatGPT の有料加入者にも公開し、この技術を利用できる人の数を大幅に増やす予定です。

OpenAIはますます高まる競争圧力に直面している。 Google の AI を活用した製品の相次ぐ発売により、DALL-E と OpenAI の主力チャットボットのトラフィックと月間ユーザー数の増加が鈍化している。しかし、OpenAI は、その斬新な画像ジェネレーターを ChatGPT に組み込むことで市場を拡大し、この技術を単独の製品ではなくチャットボットの機能として位置付けています。

オープンAIの広報ディレクター、リンジー・ボルトン氏は、DALL-E 3は発売時に不具合があったため、記者会見に出席したジャーナリストらはこの機能をテストできなかったと述べた。しかし、OpenAIはその後、DALL-E 3は水曜日のリリースまでに安定するだろうと述べた。

これまでにリリースされた DALL-E 2、Midjourney、Stable Diffusion などのテキストから画像へのジェネレーターは、早い段階でユーザーを魅了し、技術的なスキルを必要とせずに高度なソフトウェア機能を習得する機会を一般の人々に提供しました。広告主、マーケティング担当者、政治家、ビデオゲーム開発者は皆、キャンペーンを実行するためにこれらのツールを使用しています。

しかし、データ分析会社シミラーウェブのデータによると、DALL-Eツールへのオンライン訪問数は、OpenAIがChatGPTの基盤技術をアップグレードした2023年3月のピーク時の3,200万件から、8月には約1,300万件に減少している。

テキストから画像を生成するAI技術の将来は不透明であるものの、その発展にはほとんど限界がなく、リアルな画像を生成する能力が大きな社会的、政治的影響を及ぼす可能性があるという懸念が生じている。

旧バージョンの DALL-E で生成された道路標識やテキストは非常にごちゃごちゃして見えたため、AI で生成された画像を簡単に識別できました。しかし、DALL-E 3 の改良により、素人が画像が本物かどうかを判断することがより困難になりました。 「もはや自分の目は信用できない」と、デジタルフォレンジックを研究し、アドビと協力してコンテンツ真正性イニシアチブを支援しているカリフォルニア大学バークレー校の教授、ハニー・ファリド氏は言う。

ファリド氏は、AI はおよそ 6 か月ごとに現実世界を模倣する能力が向上するため、DALL-E 3 の改良は驚くべきことではないと強調した。彼は、人工知能から人間の創造物を取り除くための先進技術が必要だと訴えた。

OpenAIの競合企業であるStability AIとMidjourneyは、生成AIモデルのトレーニングに必要な膨大な量のインターネットデータに関して著作権侵害を主張するアーティストやゲッティイメージズからの訴訟に直面している。

法執行機関、規制当局、擁護団体は最近、これらのツールがどのように使用されているかに注目し始めている。たとえば、ディープフェイクのアダルトコンテンツや、次期大統領選挙に向けた AI 生成の広告の作成などだ。

DALL-E 3チームは、これらのリスクを優先し、最悪のシナリオをテストし、その経験を会社の対応戦略に組み込むために外部の専門家の「レッドチーム」を招集したと述べた。

DALL-E 2については、OpenAIはシステムカードでプロセスの詳細な概要を公開し、AIモデルの開発、微調整、安全性テストに関する公開手順を詳述しました。政策研究者のサンディニ・アガルワル氏は、OpenAIはDALL-E 3が一般に公開される前に同様のカードをリリースする予定だと述べた。 6月のホワイトハウスサミットでの自主的な取り組みの一環として、OpenAIは、画像を透かしで埋め込んだり、コンテンツを作成したサービスやモデルを示す来歴データをエンコードしたりするなどの方法を通じて、AIによって生成されたビデオやオーディオコンテンツを識別するための防止メカニズムを開発し、導入することに合意した。ラメシュ氏は、DALL-E 3は画像の出所やコンテンツの「由来」を調べることができる分類装置を実験中であり、これはホワイトハウスの公約にも記載されている手法だと述べた。

オープンソースのモデルライブラリ企業ハギング・フェイスの研究科学者で、グーグルの倫理的AIの元共同責任者であるマーガレット・ミッチェル氏は、これらのメカニズムはディープフェイクの識別に役立つと同時に、アーティストが自分の作品が同意や報酬なしにモデルのトレーニングに使用されたかどうかを追跡するのにも役立つと述べた。

ミッチェル氏はさらにこう付け加えた。「これは必ずしも会社の利益になるわけではないが、より一般大衆の利益になると思う。」

<<:  ChatGPT を使用して Web アプリケーションを構築する方法は?

>>: 

ブログ    

推薦する

モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...

機械学習がインドのヘルスケア分野に変化をもたらす

ヘルスケア産業はインド経済において最大のセクターの一つとなっている。 NITIAyogの報告によると...

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

1. 背景GPTなどの大規模モデルの登場後、言語モデルのTransformer +自己回帰モデリング...

人工知能はユーザーのメッセージング体験を変える

Emogi は、チャット アプリでテキストを送信したり、投稿にコメントしたり、友人にビデオを送信した...

「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

最近、国家インターネット金融セキュリティ技術専門家委員会と上海振聯公司は共同で「ブロックチェーン+A...

従来のジムも人工知能によって消滅してしまうのでしょうか?

[[336339]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

▲ テーブルの上にいるのはマンホールの蓋でしょうか、それともトンボでしょうか?(写真提供:ダン・ヘ...

...

人工知能+機械学習+ディープラーニングの関係を理解するのに役立ちます

ビッグデータ人工知能技術は、応用レベルでは、機械学習、ニューラルネットワーク、ディープラーニングなど...

「未来ロボット」が1億元の資金調達を完了。自動物流が次の「阿修羅場」となるか?

2021年上半期、世界経済が回復し始めると、自動車業界も着実に回復し始め、自動車メーカーは電動化と...

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

1. JSP フォーラムのデモテーブルの構造: テーブル名: mybbslist フィールド データ...

顔認識の混乱が蔓延しています。企業は規制に準拠しながら顔認識技術をどのように適用できるでしょうか?

2012年以来、情報セキュリティに対する世間の注目はますます高まっており、今年の315 Galaで...

Googleの検索アルゴリズムがユーザーをより深く理解する方法

Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...