OpenAIがChatGPTをアップデート:画像と音声入力をサポート

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という 2 つの新機能を追加しました。 OpenAIによると、新機能は今後2週間以内にChatGPT Plus加入者に展開され、他のユーザーも「すぐに」使用できるようになるという。

音声入力機能は、携帯電話の音声アシスタントに似ています。ユーザーはボタンを押して質問を話すだけです。ChatGPT はそれをテキストに変換し、回答を生成し、回答を音声に変換してユーザーに再生します。 OpenAIは、このやりとりの方法の方がより自然で便利であり、LLMの技術的利点により回答の質も高くなると述べた。 OpenAIは、数秒のサンプル音声に基づいて人間のような音声を生成できる新しいテキスト読み上げモデルも開発しました。ユーザーは ChatGPT の音声を 5 つのオプションから選択でき、このモデルにはさらに多くの潜在的な用途があります。たとえば、OpenAI は Spotify と協力して、ポッドキャストのホストの音声を維持しながらポッドキャストを他の言語に翻訳しています。ただし、このモデルには、公人になりすましたり詐欺行為をしたりするために悪用される可能性など、いくつかのリスクもあります。そのため、OpenAIは、このモデルは広く公開されるのではなく、厳しく管理され、制限されると述べました。

画像入力機能はGoogle Lensに似ており、ユーザーは興味のあるものの写真を撮ってChatGPTにアップロードすることができます。 ChatGPT は、ユーザーが何を尋ねたいのかを識別し、それに応じて回答しようとします。ユーザーは、アプリの描画ツールを使用して質問を表現したり、音声またはテキスト入力を使用してコミュニケーションしたりすることもできます。 ChatGPT の利点は、1 回の検索ではなく、複数回の会話を実行できることです。ユーザーが回答に満足していない場合や、さらに詳しい情報を希望する場合は、ChatGPT に質問を続け、より正確で包括的な回答を得ることができます。もちろん、画像検索には潜在的な問題がいくつかあります。例えば、 OpenAIは、人物の写真を処理する際に、正確性を確保しプライバシーを保護するために、ChatGPTが人物を分析して直接評価する機能を制限したと述べている。つまり、人物の写真をアップロードしてその人が誰であるかを知ることはまだ不可能である。

IT Homeは、2022年初頭のChatGPTの発売以来、OpenAIが新たな問題の発生を避けながら、ロボットにさらに多くの機能と能力を追加するために懸命に取り組んでいることに気づきました。同社は今回のアップデートで、新モデルの機能を意図的に制限することで、その点でのバランスを取ろうとしている。しかし、このアプローチは長期的な解決策ではありません。音声制御や画像検索を使用する人が増え、ChatGPT が徐々に真にマルチモーダルで便利な仮想アシスタントになるにつれて、安全で合理的​​な境界を維持することがますます難しくなります。

<<:  Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

>>:  GitHub CEO: AIはプログラマーに取って代わることはできない

ブログ    
ブログ    
ブログ    

推薦する

...

...

すべてのデータ サイエンティストに必要な 3 つのシンプルな異常検出アルゴリズム

外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...

...

データ センターをよりスマートに: 人工知能はどのように役立つのか?

[[382637]]データセンターが国の経済の原動力となるにつれ、人工知能を導入することでより高い...

過去1年間、世界は人工知能の倫理について次のような考えを抱いてきた。

1月下旬に終了したCES 2019で、LGの社長兼最高技術責任者であるIP Park氏が、AIがど...

2027年のAIはどのようになっているでしょうか?ヒントは、あなたの脳の中にあります。

やっていることをやめて、窓の外の鳥やリス、昆虫などを眺めてみましょう。これらの生物は、食物を見つけた...

人工知能は将来の仕事や生活にどのような影響を与えるのでしょうか?

記憶の道をたどってみると、この時代に人類がどれだけ進歩したかがわかるでしょう。昔は、愛する人に手紙を...

ベースライン モデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...

AI「コスプレ」の鍵はキャラクター設定にあり!復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表:特性回復率は82.8%に達し、OOCを否定

好きなアニメ小説のキャラクターとチャットしてみませんか?バーチャルコンパニオンが欲しいですか?あなた...

...

3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理...

不動産業界における人工知能のメリットトップ10

人工知能 (AI) は不動産業界に革命をもたらし、データ分析の強化から顧客体験の向上まで、さまざまな...

...

Java プログラミング スキル - データ構造とアルゴリズム「フィボナッチ検索」

[[398011]]基本的な紹介フィボナッチとは、線分を 2 つの部分に分割し、一方の長さと全体の...