大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI がコードインタープリターをリリースしました...

大型モデルが次々と発売されていますが、多種多様であり、1つのモデルですべての問題を解決できるわけではありません。

では、さまざまなタスクにどちらを使用すればよいのでしょうか?

写真

心配しないでください。ペンシルバニア大学ウォートン校のイーサン・モリック教授が選択ガイドをまとめています。

意思決定の困難に悩む人々に今、助けがあります!

このガイドでは、今夏時点の最新状況を網羅するだけでなく、さまざまなタスクにおけるさまざまな大規模モデルのパフォーマンス比較も含まれています。

6 つの使用シナリオで大規模なモデルを選択するためのステップバイステップ ガイドと、最適な無料および有料のオプションについて説明します。

これを見たネットユーザーはこう言った。

まず同僚のために保存しました。

写真

この選択ガイドに何が含まれているか見てみましょう。

さまざまなビッグモデルを使用して、これら6つのことを実行します

1. ライティング

最高の無料オプション: Bing、Claude 2

有料オプション: ChatGPT 4.0、ChatGPT+プラグイン

AI ライティングに関しては、Ethan Mollick 教授は GPT-4 が依然として最も信頼できるツールであると考えています。

家族は無料の Bing (クリエイティブ モード) を使用することもできますが、Claude も良い選択です。

具体的には、ビッグモデルを使用すると、下書きの作成、コンテンツの執筆の最適化、タスクの完了の支援、自分自身のロック解除(AI は困難を克服する方法を提供します)などが可能になります。

さらに、これらのツールは、Microsoft Office + GPT や Google Docs + Bard などの一部のオフィス アプリケーションに統合されています。

写真

上記の大規模モデルはすべて、テキストの書き込みでは優れたパフォーマンスを発揮しますが、「幻覚」や意味不明な結果も生成する可能性があります。特に、インターネットに接続されていない大規模なモデルでは、インターネット上で参考文献や引用情報を提供する必要があります。

GPT-4 は一般的にパフォーマンスが優れており、Bing 接続ネットワークは実際に関連する事実情報を取得できるため、Bing では幻覚が少なくなります。

イーサン・モリック教授は、以前の使用法にも問題を発見しました。

AI はそれ自体を説明することはできませんが、説明できると思わせるだけです。

写真

なぜ何かを書いたのか説明を求めると、もっともらしく見えるが完全に捏造された答えが返されます。思考プロセスについて質問すると、実際に自身の行動を調べているわけではなく、単にそうしているように聞こえるテキストを生成しているだけです。

2. 画像を作成する

最も透明なオプション: Adob​​e Firefly

オープンソースオプション: 安定した普及

最高の無料オプション: Bing、Bing Image Creator (DALL-E を使用)、Playground (複数のモデルを使用可能)

最高画質の画像: Midjourney

現在、主な画像生成ツールには以下のものがあります。

  • Stable Diffusion: オープンソースで、他のソースからの画像と組み合わせるのに特に適しています (使用方法については記事の最後を参照してください)。
  • DALL-E: OpenAI から提供され、Bing (クリエイティブ モードが必要) および Bing Image Creator に統合されています。 DALL-E は信頼性が高いですが、Midjourney ほど優れていません。
  • 中間段階: すべてのシステムの中で学習曲線が最も低い、今年最高のシステムです。 「thing-you-want-to-see --v 5.2」と入力するだけで (最後の --v 5.2 は重要で、最新のモデルを使用します)、非常に良い結果が得られるはずです。 Midjourney では Discord を使用する必要があります (手順については記事の最後を参照してください)。
  • Adobe Firefly: Adob​​e 製品に統合されていますが、生成される画像の品質の点では DALL-E や Midjourney ほど優れていません。 Adobe は、大規模なモデルをトレーニングする際には、使用権のある画像のみを使用すると述べています。

それぞれの大規模モデルのパフォーマンスは次のとおりです(各画像は同じプロンプトで異なるモデルによって生成された最初の画像です)

写真


△テーマ:「ゴッホにインスパイアされたスニーカーのファッション撮影」

これらのモデルは、トレーニング データの影響により、必然的に何らかのバイアスを持つことに注意してください。

第二に、トレーニングデータのほとんどはインターネットから取得されるため、透明性が欠けており、画像の著作権の問題も十分に明確ではありません。

さらに、現在のところ、画像生成では実際にテキストを作成することはできず、テキストのように見える一連のものを生成することしかできません。しかし、Midjourney は手の描写をうまく行っています。

3. 創造的思考

最高の無料オプション: Bing

有料オプション: ChatGPT 4.0 (ただし、Bing ネットワークによりパフォーマンスが向上する可能性があります)

良いアイデアを得るには通常、たくさんのアイデアが必要ですが、AI はたくさんのアイデアを生み出すのが得意です。

アイデア モードでは、Bing を使用して、ブライアン イーノのオブリーク戦略やマーシャル マクルーハンのテトラッドなど、お気に入りの型破りなアイデア生成テクニックを検索して適用したり、モデルに奇妙なアイデアを考え出させたりすることができます。

写真

4. ビデオを作る

最高のアニメーション ツール: D-iD (ビデオ内の顔をアニメーション化)、Runway v2 (テキストからビデオを作成する)

最高のサウンドクローン: ElevenLabs

AI 生成ビデオをワンストップサービスで提供できるようになりました。

キャラクター生成から脚本作成、吹き替えまですべてAIで行えます。

AI ツールを使用して生成されたビデオは、非常にリアルに見える場合があります。イーサン・モリック教授は自身の写真を使って「偽のビデオ」を作成した。

写真

しかし、これらのツールは倫理的に使用する必要があることに注意することが重要です。

5. ファイルとデータの取り扱い

データ(およびコードを使用した奇妙なアイデア): コードインタープリター

ドキュメント: Claude 2 (大きなドキュメント、または複数のドキュメントを同時に操作する場合)、Bing (小さなドキュメントや Web ページ用のサイドバー)

コードインタープリターは、アップロードされたファイルに対してコードを記述して実行することができ、生成された結果をダウンロードすることもできます。プログラムを実行したり、データ分析を行ったり、さまざまなドキュメント、Web ページ、さらにはゲームを作成したりするために使用できます。

Ethan Mollick 教授は、コード インタープリターを使用してデータの視覚化を処理する方法も確立しました(記事の最後にあるリンクを参照)

写真

PDF ドキュメントの処理に関しては、Claude 2 が依然として最適です。

イーサン・モリック教授は、Claudeに本全体を貼り付け、複雑な学術論文を多数与えて結果を要約するように指示したところ、Claudeは優れたパフォーマンスを発揮したと語った。

写真

それだけでなく、「この方法の証拠は何ですか?」などの質問を続けて、データをさらに調査することもできます。著者の結論は…

しかし、モデルが「幻覚」を生成することもあるため、この点には依然として注意を払う必要があります。

6. 情報を入手し知識を学ぶ

最高の無料オプション: Bing

有料オプション:子供向けにはKhanmigo(AI家庭教師)が利用可能

イーサン・モリック教授は、「幻覚」の危険性が高いため、これらの大規模なモデルを検索エンジンとして使用しない方がよいと考えています。

彼は、Bing はインターネットに接続されているため、「幻覚」が比較的少なくなるため、Bing の使用を推奨しました。しかし、慎重に使用すれば、特に検索エンジンがあまり良い結果を出さない状況では、AI は検索よりも有用な回答を提供できる場合が多くあります。

さらに、学習を支援するためにこれらの AI ツールを使用するのは良い選択です。イーサン・モリック教授も、良い「自動家庭教師」のヒントだと思ったことを教えてくれました。

写真

ポータル:
[1] https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview (Stable Diffusion ユーザーガイド) [2] https://www.pcworld.com/article/540080/how-to-use-discord-a-beginners-guide.html (Discord ユーザーガイド)
[3] https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer (画像生成バイアスの観察)*
[4] https://www.oneusefulthing.org/p/a-quick-and-sobering-guide-to-cloning (Ethan Mollickが写真から動画を生成) [5] https://chat.openai.com/share/afe54a2d-0ad0-4166-b1aa-9a5394deff66 (コードインタープリターによるデータ視覚化)
[6] https://chat.openai.com/share/ec1018ec-1d86-4160-b587-354253c7d5cb (AIチューターのヒント)*

参考リンク:
[1] https://www.oneusefulthing.org/p/how-to-use-ai-to-do-stuff-an-opinionated

[2] https://twitter.com/emollick/status/1680586569617481728?s=20

<<:  スタンフォード大学の博士によるソロ作品!大規模モデルのトレーニング速度が再び2倍になり、彼はスタースタートアップの主任科学者として参加することを正式に発表した。

>>:  AIとIoTが交通管理に及ぼす6つの影響

ブログ    
ブログ    
ブログ    

推薦する

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

...

SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ChatGPT、画像や動画コンテンツを生成するCanvaプラグインをリリース

9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...

自動運転のための強化学習:人間主導の経験ベースのアプローチ

[[428302]] 2021年9月26日にarXivにアップロードされた論文「人間のガイダンスによ...

ネットユーザーの83%を騙した!画像生成の頂点、DALL-E 2 は実際にチューリングテストに合格したのか?

数日前、休暇中だったネットユーザーが「DALL-E 2」にアクセスできたことを知った。 2秒間考えた...

TCPとUDPの違いと、フロー制御、輻輳制御、高速再送、高速回復アルゴリズムの詳細な説明

[[413351]] UDPとTCPの違い前回の記事では、TCP の接続を確立するための 3 ウェイ...

生成型AIの7つの秘密

誇大宣伝されているかどうかは別として、人工知能アルゴリズムの可能性は依然として有望です。しかし、今日...

新型コロナウイルスは「ターミネーター」か?人工知能で疫病と闘う

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

Go データ構造とアルゴリズムの基本クイックソート

[[411577]]この記事はWeChatの公開アカウント「Light City」から転載したもので...

AIモデルは研究者ががん検出の精度を向上させるのに役立つ

マドゥ・ネール博士とアシャ・ダス博士は、人工知能 (AI) モデルを使用して患者の組織サンプルのスキ...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

...

...

2020年の人工知能における最大のイノベーション

2020 年は例年とは異なる年となり、コミュニティ全体が数多くの課題に直面しました。しかし、2020...