大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI がコードインタープリターをリリースしました...

大型モデルが次々と発売されていますが、多種多様であり、1つのモデルですべての問題を解決できるわけではありません。

では、さまざまなタスクにどちらを使用すればよいのでしょうか?

写真

心配しないでください。ペンシルバニア大学ウォートン校のイーサン・モリック教授が選択ガイドをまとめています。

意思決定の困難に悩む人々に今、助けがあります!

このガイドでは、今夏時点の最新状況を網羅するだけでなく、さまざまなタスクにおけるさまざまな大規模モデルのパフォーマンス比較も含まれています。

6 つの使用シナリオで大規模なモデルを選択するためのステップバイステップ ガイドと、最適な無料および有料のオプションについて説明します。

これを見たネットユーザーはこう言った。

まず同僚のために保存しました。

写真

この選択ガイドに何が含まれているか見てみましょう。

さまざまなビッグモデルを使用して、これら6つのことを実行します

1. ライティング

最高の無料オプション: Bing、Claude 2

有料オプション: ChatGPT 4.0、ChatGPT+プラグイン

AI ライティングに関しては、Ethan Mollick 教授は GPT-4 が依然として最も信頼できるツールであると考えています。

家族は無料の Bing (クリエイティブ モード) を使用することもできますが、Claude も良い選択です。

具体的には、ビッグモデルを使用すると、下書きの作成、コンテンツの執筆の最適化、タスクの完了の支援、自分自身のロック解除(AI は困難を克服する方法を提供します)などが可能になります。

さらに、これらのツールは、Microsoft Office + GPT や Google Docs + Bard などの一部のオフィス アプリケーションに統合されています。

写真

上記の大規模モデルはすべて、テキストの書き込みでは優れたパフォーマンスを発揮しますが、「幻覚」や意味不明な結果も生成する可能性があります。特に、インターネットに接続されていない大規模なモデルでは、インターネット上で参考文献や引用情報を提供する必要があります。

GPT-4 は一般的にパフォーマンスが優れており、Bing 接続ネットワークは実際に関連する事実情報を取得できるため、Bing では幻覚が少なくなります。

イーサン・モリック教授は、以前の使用法にも問題を発見しました。

AI はそれ自体を説明することはできませんが、説明できると思わせるだけです。

写真

なぜ何かを書いたのか説明を求めると、もっともらしく見えるが完全に捏造された答えが返されます。思考プロセスについて質問すると、実際に自身の行動を調べているわけではなく、単にそうしているように聞こえるテキストを生成しているだけです。

2. 画像を作成する

最も透明なオプション: Adob​​e Firefly

オープンソースオプション: 安定した普及

最高の無料オプション: Bing、Bing Image Creator (DALL-E を使用)、Playground (複数のモデルを使用可能)

最高画質の画像: Midjourney

現在、主な画像生成ツールには以下のものがあります。

  • Stable Diffusion: オープンソースで、他のソースからの画像と組み合わせるのに特に適しています (使用方法については記事の最後を参照してください)。
  • DALL-E: OpenAI から提供され、Bing (クリエイティブ モードが必要) および Bing Image Creator に統合されています。 DALL-E は信頼性が高いですが、Midjourney ほど優れていません。
  • 中間段階: すべてのシステムの中で学習曲線が最も低い、今年最高のシステムです。 「thing-you-want-to-see --v 5.2」と入力するだけで (最後の --v 5.2 は重要で、最新のモデルを使用します)、非常に良い結果が得られるはずです。 Midjourney では Discord を使用する必要があります (手順については記事の最後を参照してください)。
  • Adobe Firefly: Adob​​e 製品に統合されていますが、生成される画像の品質の点では DALL-E や Midjourney ほど優れていません。 Adobe は、大規模なモデルをトレーニングする際には、使用権のある画像のみを使用すると述べています。

それぞれの大規模モデルのパフォーマンスは次のとおりです(各画像は同じプロンプトで異なるモデルによって生成された最初の画像です)

写真


△テーマ:「ゴッホにインスパイアされたスニーカーのファッション撮影」

これらのモデルは、トレーニング データの影響により、必然的に何らかのバイアスを持つことに注意してください。

第二に、トレーニングデータのほとんどはインターネットから取得されるため、透明性が欠けており、画像の著作権の問題も十分に明確ではありません。

さらに、現在のところ、画像生成では実際にテキストを作成することはできず、テキストのように見える一連のものを生成することしかできません。しかし、Midjourney は手の描写をうまく行っています。

3. 創造的思考

最高の無料オプション: Bing

有料オプション: ChatGPT 4.0 (ただし、Bing ネットワークによりパフォーマンスが向上する可能性があります)

良いアイデアを得るには通常、たくさんのアイデアが必要ですが、AI はたくさんのアイデアを生み出すのが得意です。

アイデア モードでは、Bing を使用して、ブライアン イーノのオブリーク戦略やマーシャル マクルーハンのテトラッドなど、お気に入りの型破りなアイデア生成テクニックを検索して適用したり、モデルに奇妙なアイデアを考え出させたりすることができます。

写真

4. ビデオを作る

最高のアニメーション ツール: D-iD (ビデオ内の顔をアニメーション化)、Runway v2 (テキストからビデオを作成する)

最高のサウンドクローン: ElevenLabs

AI 生成ビデオをワンストップサービスで提供できるようになりました。

キャラクター生成から脚本作成、吹き替えまですべてAIで行えます。

AI ツールを使用して生成されたビデオは、非常にリアルに見える場合があります。イーサン・モリック教授は自身の写真を使って「偽のビデオ」を作成した。

写真

しかし、これらのツールは倫理的に使用する必要があることに注意することが重要です。

5. ファイルとデータの取り扱い

データ(およびコードを使用した奇妙なアイデア): コードインタープリター

ドキュメント: Claude 2 (大きなドキュメント、または複数のドキュメントを同時に操作する場合)、Bing (小さなドキュメントや Web ページ用のサイドバー)

コードインタープリターは、アップロードされたファイルに対してコードを記述して実行することができ、生成された結果をダウンロードすることもできます。プログラムを実行したり、データ分析を行ったり、さまざまなドキュメント、Web ページ、さらにはゲームを作成したりするために使用できます。

Ethan Mollick 教授は、コード インタープリターを使用してデータの視覚化を処理する方法も確立しました(記事の最後にあるリンクを参照)

写真

PDF ドキュメントの処理に関しては、Claude 2 が依然として最適です。

イーサン・モリック教授は、Claudeに本全体を貼り付け、複雑な学術論文を多数与えて結果を要約するように指示したところ、Claudeは優れたパフォーマンスを発揮したと語った。

写真

それだけでなく、「この方法の証拠は何ですか?」などの質問を続けて、データをさらに調査することもできます。著者の結論は…

しかし、モデルが「幻覚」を生成することもあるため、この点には依然として注意を払う必要があります。

6. 情報を入手し知識を学ぶ

最高の無料オプション: Bing

有料オプション:子供向けにはKhanmigo(AI家庭教師)が利用可能

イーサン・モリック教授は、「幻覚」の危険性が高いため、これらの大規模なモデルを検索エンジンとして使用しない方がよいと考えています。

彼は、Bing はインターネットに接続されているため、「幻覚」が比較的少なくなるため、Bing の使用を推奨しました。しかし、慎重に使用すれば、特に検索エンジンがあまり良い結果を出さない状況では、AI は検索よりも有用な回答を提供できる場合が多くあります。

さらに、学習を支援するためにこれらの AI ツールを使用するのは良い選択です。イーサン・モリック教授も、良い「自動家庭教師」のヒントだと思ったことを教えてくれました。

写真

ポータル:
[1] https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview (Stable Diffusion ユーザーガイド) [2] https://www.pcworld.com/article/540080/how-to-use-discord-a-beginners-guide.html (Discord ユーザーガイド)
[3] https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer (画像生成バイアスの観察)*
[4] https://www.oneusefulthing.org/p/a-quick-and-sobering-guide-to-cloning (Ethan Mollickが写真から動画を生成) [5] https://chat.openai.com/share/afe54a2d-0ad0-4166-b1aa-9a5394deff66 (コードインタープリターによるデータ視覚化)
[6] https://chat.openai.com/share/ec1018ec-1d86-4160-b587-354253c7d5cb (AIチューターのヒント)*

参考リンク:
[1] https://www.oneusefulthing.org/p/how-to-use-ai-to-do-stuff-an-opinionated

[2] https://twitter.com/emollick/status/1680586569617481728?s=20

<<:  スタンフォード大学の博士によるソロ作品!大規模モデルのトレーニング速度が再び2倍になり、彼はスタースタートアップの主任科学者として参加することを正式に発表した。

>>:  AIとIoTが交通管理に及ぼす6つの影響

ブログ    

推薦する

...

AIの最下層に突入! NUSのYou Yang氏のチームは拡散モデルを使用してニューラルネットワークパラメータを構築したとLeCun氏は称賛した。

拡散モデルは新たな大きな応用をもたらしました——ソラが動画を生成するのと同じように、ニューラルネット...

Javaコードの効率とアルゴリズム設計を最適化してパフォーマンスを向上

Java 開発では、非効率的なコードや不合理なアルゴリズムにより、プログラムのパフォーマンスが低下す...

職場におけるAIと自動化の重要性

AI は問題解決に新たな次元をもたらし、さまざまな業界の企業に利益をもたらします。 AI は、膨大な...

文字の組み合わせをソートするJavaアルゴリズム

Java の文字の組み合わせソートは、特に難しい問題ではありません。ブルートフォースとグラフ理論 (...

教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

[[337832]] 01 用語このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学...

...

...

...

このGitHubの8000スターAIリアルタイム顔変換プロジェクトにはアプリがある

人間のロールプレイングへの熱意は決して衰えることがなく、だからこそ AI による顔の変形が人気を博し...

Google とスタンフォード大学が共同で記事「なぜ大規模なモデルを使用する必要があるのか​​?」を発表しました。

言語モデルは、自然言語処理の分野における研究と実践に大きな変化をもたらしました。近年、大型モデルは多...

ボストンダイナミクスの犬は48万8000元。美しい女性がビーチで犬を散歩させている。ネットユーザーから「金持ち」と呼ばれる

太陽の光、美しさ、ビーチ、他に何が思い浮かびますか?写真にボストンのロボット犬がいると言ったら、想像...

AI を活用した会話型顧客体験の可能性を引き出す方法

企業は AI ツールを使用して、顧客ロイヤルティにプラスの影響を与え、利益を増やすことができる会話型...