大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI がコードインタープリターをリリースしました...

大型モデルが次々と発売されていますが、多種多様であり、1つのモデルですべての問題を解決できるわけではありません。

では、さまざまなタスクにどちらを使用すればよいのでしょうか?

写真

心配しないでください。ペンシルバニア大学ウォートン校のイーサン・モリック教授が選択ガイドをまとめています。

意思決定の困難に悩む人々に今、助けがあります!

このガイドでは、今夏時点の最新状況を網羅するだけでなく、さまざまなタスクにおけるさまざまな大規模モデルのパフォーマンス比較も含まれています。

6 つの使用シナリオで大規模なモデルを選択するためのステップバイステップガイドと、最適な無料および有料のオプションについて説明します。

これを見たネットユーザーはこう言った。

まず同僚のために保存しました。

写真

この選択ガイドに何が含まれているか見てみましょう。

さまざまなビッグモデルを使用して、これら6つのことを実行します

1. ライティング

最高の無料オプション: Bing、Claude 2

有料オプション: ChatGPT 4.0、ChatGPT+プラグイン

AI ライティングに関しては、Ethan Mollick 教授は GPT-4 が依然として最も信頼できるツールであると考えています。

家族は無料の Bing (クリエイティブモード) を使用することもできますが、Claude も良い選択です。

具体的には、ビッグモデルを使用すると、下書きの作成、コンテンツの執筆の最適化、タスクの完了の支援、自分自身のロック解除（AI は困難を克服する方法を提供します）などが可能になります。

さらに、これらのツールは、Microsoft Office + GPT や Google Docs + Bard などの一部のオフィスアプリケーションに統合されています。

写真

上記の大規模モデルはすべて、テキストの書き込みでは優れたパフォーマンスを発揮しますが、「幻覚」や意味不明な結果も生成する可能性があります。特に、インターネットに接続されていない大規模なモデルでは、インターネット上で参考文献や引用情報を提供する必要があります。

GPT-4 は一般的にパフォーマンスが優れており、Bing 接続ネットワークは実際に関連する事実情報を取得できるため、Bing では幻覚が少なくなります。

イーサン・モリック教授は、以前の使用法にも問題を発見しました。

AI はそれ自体を説明することはできませんが、説明できると思わせるだけです。

写真

なぜ何かを書いたのか説明を求めると、もっともらしく見えるが完全に捏造された答えが返されます。思考プロセスについて質問すると、実際に自身の行動を調べているわけではなく、単にそうしているように聞こえるテキストを生成しているだけです。

2. 画像を作成する

最も透明なオプション: Adobe Firefly

オープンソースオプション: 安定した普及

最高の無料オプション: Bing、Bing Image Creator (DALL-E を使用)、Playground (複数のモデルを使用可能)

最高画質の画像: Midjourney

現在、主な画像生成ツールには以下のものがあります。

Stable Diffusion: オープンソースで、他のソースからの画像と組み合わせるのに特に適しています (使用方法については記事の最後を参照してください)。
DALL-E: OpenAI から提供され、Bing (クリエイティブモードが必要) および Bing Image Creator に統合されています。 DALL-E は信頼性が高いですが、Midjourney ほど優れていません。
中間段階: すべてのシステムの中で学習曲線が最も低い、今年最高のシステムです。「thing-you-want-to-see --v 5.2」と入力するだけで (最後の --v 5.2 は重要で、最新のモデルを使用します)、非常に良い結果が得られるはずです。 Midjourney では Discord を使用する必要があります (手順については記事の最後を参照してください)。
Adobe Firefly: Adobe 製品に統合されていますが、生成される画像の品質の点では DALL-E や Midjourney ほど優れていません。 Adobe は、大規模なモデルをトレーニングする際には、使用権のある画像のみを使用すると述べています。

それぞれの大規模モデルのパフォーマンスは次のとおりです(各画像は同じプロンプトで異なるモデルによって生成された最初の画像です) 。

写真

△テーマ：「ゴッホにインスパイアされたスニーカーのファッション撮影」

これらのモデルは、トレーニングデータの影響により、必然的に何らかのバイアスを持つことに注意してください。

第二に、トレーニングデータのほとんどはインターネットから取得されるため、透明性が欠けており、画像の著作権の問題も十分に明確ではありません。

さらに、現在のところ、画像生成では実際にテキストを作成することはできず、テキストのように見える一連のものを生成することしかできません。しかし、Midjourney は手の描写をうまく行っています。

3. 創造的思考

最高の無料オプション: Bing

有料オプション: ChatGPT 4.0 (ただし、Bing ネットワークによりパフォーマンスが向上する可能性があります)

良いアイデアを得るには通常、たくさんのアイデアが必要ですが、AI はたくさんのアイデアを生み出すのが得意です。

アイデアモードでは、Bing を使用して、ブライアンイーノのオブリーク戦略やマーシャルマクルーハンのテトラッドなど、お気に入りの型破りなアイデア生成テクニックを検索して適用したり、モデルに奇妙なアイデアを考え出させたりすることができます。

写真

4. ビデオを作る

最高のアニメーションツール: D-iD (ビデオ内の顔をアニメーション化)、Runway v2 (テキストからビデオを作成する)

最高のサウンドクローン: ElevenLabs

AI 生成ビデオをワンストップサービスで提供できるようになりました。

キャラクター生成から脚本作成、吹き替えまですべてAIで行えます。

AI ツールを使用して生成されたビデオは、非常にリアルに見える場合があります。イーサン・モリック教授は自身の写真を使って「偽のビデオ」を作成した。

写真

しかし、これらのツールは倫理的に使用する必要があることに注意することが重要です。

5. ファイルとデータの取り扱い

データ（およびコードを使用した奇妙なアイデア）: コードインタープリター

ドキュメント: Claude 2 (大きなドキュメント、または複数のドキュメントを同時に操作する場合)、Bing (小さなドキュメントや Web ページ用のサイドバー)

コードインタープリターは、アップロードされたファイルに対してコードを記述して実行することができ、生成された結果をダウンロードすることもできます。プログラムを実行したり、データ分析を行ったり、さまざまなドキュメント、Web ページ、さらにはゲームを作成したりするために使用できます。

Ethan Mollick 教授は、コードインタープリターを使用してデータの視覚化を処理する方法も確立しました(記事の最後にあるリンクを参照) 。

写真

PDF ドキュメントの処理に関しては、Claude 2 が依然として最適です。

イーサン・モリック教授は、Claudeに本全体を貼り付け、複雑な学術論文を多数与えて結果を要約するように指示したところ、Claudeは優れたパフォーマンスを発揮したと語った。

写真

それだけでなく、「この方法の証拠は何ですか？」などの質問を続けて、データをさらに調査することもできます。著者の結論は…

しかし、モデルが「幻覚」を生成することもあるため、この点には依然として注意を払う必要があります。

6. 情報を入手し知識を学ぶ

最高の無料オプション: Bing

有料オプション：子供向けにはKhanmigo（AI家庭教師）が利用可能

イーサン・モリック教授は、「幻覚」の危険性が高いため、これらの大規模なモデルを検索エンジンとして使用しない方がよいと考えています。

彼は、Bing はインターネットに接続されているため、「幻覚」が比較的少なくなるため、Bing の使用を推奨しました。しかし、慎重に使用すれば、特に検索エンジンがあまり良い結果を出さない状況では、AI は検索よりも有用な回答を提供できる場合が多くあります。

さらに、学習を支援するためにこれらの AI ツールを使用するのは良い選択です。イーサン・モリック教授も、良い「自動家庭教師」のヒントだと思ったことを教えてくれました。

写真

ポータル:
[1] https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview (Stable Diffusion ユーザーガイド) [2] https://www.pcworld.com/article/540080/how-to-use-discord-a-beginners-guide.html (Discord ユーザーガイド)
[3] https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer (画像生成バイアスの観察)*
[4] https://www.oneusefulthing.org/p/a-quick-and-sobering-guide-to-cloning (Ethan Mollickが写真から動画を生成) [5] https://chat.openai.com/share/afe54a2d-0ad0-4166-b1aa-9a5394deff66 (コードインタープリターによるデータ視覚化)
[6] https://chat.openai.com/share/ec1018ec-1d86-4160-b587-354253c7d5cb (AIチューターのヒント)*