「カラフルな黒をください」というたった1行のコマンドでAIが描ける

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年1月にOpenAIが発表したDall-Eは驚くべきものでした。1段落のテキストを入力するだけで、その内容に基づいた画像を出力することができました。アンドリュー・ン氏も思わず親指を立てました。

たとえば、「アボカドのような座席」を設計するように依頼します。

しかし、OpenAIは公式サイトにいくつかの固定テンプレートのみを設置しており、コードはオープンソースではないため、ユーザーはAIを使用してさらに多くの画像をデザインすることはできません。

しかし、今は良いニュースがあります。中国人のPhilip Wang氏が、 Deep Dazeと呼ばれる Dall-E の PyTorch バージョンを再現しました。

彼は、パソコンで実行できるOpenAIのCLIPとスタンフォード大学のSirenを使用しました。

コマンドラインに説明を入力するだけで、この AI はさまざまな絵を描くことができます。

たとえば、緑の丘にかかる霧:

あるいは「草の上の粉々になった皿」

実際の効果についてはどう思いますか？

このプロジェクトを開発したフィリップ・ワン氏は、今年初めにDall-Eを再生産すると発表した人物と同一人物です。予想外に、3か月も経たないうちに、このプロジェクトは非常に強力になり、GitHubで1.1kのスターを獲得しました。

インストールと使用方法

Deep Daze は pip 経由で直接インストールできます:

 pip インストール deep-daze

インストールが完了したら、次のコマンドを入力して実行します。

テキストを想像する <フラグ>

ここで、imagine はコマンド、TEXT は 77 文字以内の英語の説明、<flags> はオプションのパラメーターです。

記事の冒頭にある霧のかかった山の写真を生成する場合は、次のコマンドを入力します。

緑の丘にかかる霧を想像してください

<flags> に追加できるパラメータは、--deeper (高画質を得る)、--num-layers (ネットワーク層の数を指定する) などです。詳しい使用方法については、GitHub プロジェクトのホームページでお問い合わせください。

AIの想像があまりにも大胆すぎると心配な場合は、画像を指定して、その画像をもとにAIに想像させることもできます。これにより、画像があまり過激にならないことが保証されます。

具体的なコマンドは以下のとおりです。

 '説明' を想像してください —start-image-path /path/to/picture.jpg

AIにピザの写真を見せて、「上にピーマンが乗っていたらどんな感じになるか」を想像するように頼んだとします。

次に、上記のコマンドの説明を「ピーマンのピザ」に変更します。

これはすべて Deep Daze に関することだと思われますか?実は、より強力な完成形であるストーリーモードがあります。

--create_story=True を設定するだけでモードのロックが解除され、77 文字の制限が解除されます。プロジェクトの作者は、アメリカの詩人ロバート・フロストの詩「Snowy Night Woods Resting Horse」を入力し、mp4 ビデオを取得しました。

[[390274]]

この時点で、AI に「カラフルな黒」を描かせたいところでしたが、貧弱さが私の操作を制限しました。

Deep Daze を使用するには CUDA をインストールする必要があり、良好な結果を得るには 8GB 以上のビデオメモリを搭載した GPU を使用するのが最適です。そして今のところ、Nvidia グラフィックカードを購入する余裕はまったくありません。

プロジェクトアドレス:

https://github.com/lucidrains/deep-daze

<<: ディープラーニングを使った顔認証

>>: 「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

ブログ

企業はどのように人工知能を導入し、そこから価値を得ることができるのでしょうか?

ブログ

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

インストールと使用方法

行列乗算の最適化と畳み込みにおけるその応用

車載グレードの安全チップとチップ安全性テスト技術を1つの記事で理解する

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政：申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

企業はどのように人工知能を導入し、そこから価値を得ることができるのでしょうか?

推薦する

フォーブス誌の2020年のAIに関するトップ10予測: 人工知能はますます「疎外」されつつある!

Adobe と機械学習が出会う: 新しい Photoshop が複数の新しい AI 機能を導入

NANDフラッシュメモリのウェアレベリングアルゴリズムの最適化

興味深い質問です。2025年までに自動運転車が普及したとしても、運転免許証を取得する必要はあるのでしょうか?

OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

人工知能は非常に強力だが、人間は必ずしも人工知能に支配されるわけではない。ホーキングは間違っているのだろうか？

都市治安分野における人工知能の応用と開発に関する研究

Google DeepMind が AI モデルが複雑な離散数学問題を計算できるようにする「FunSearch」トレーニング方法をリリース

Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か？

ハイブリッドクラウド環境でディープラーニングを取り入れたID認証はより柔軟

産業分野におけるマシンビジョンの用途は何ですか?