OpenAIがChatGPTをアップデート：画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という 2 つの新機能を追加しました。 OpenAIによると、新機能は今後2週間以内にChatGPT Plus加入者に展開され、他のユーザーも「すぐに」使用できるようになるという。

音声入力機能は、携帯電話の音声アシスタントに似ています。ユーザーはボタンを押して質問を話すだけです。ChatGPT はそれをテキストに変換し、回答を生成し、回答を音声に変換してユーザーに再生します。 OpenAIは、このやりとりの方法の方がより自然で便利であり、LLMの技術的利点により回答の質も高くなると述べた。 OpenAIは、数秒のサンプル音声に基づいて人間のような音声を生成できる新しいテキスト読み上げモデルも開発しました。ユーザーは ChatGPT の音声を 5 つのオプションから選択でき、このモデルにはさらに多くの潜在的な用途があります。たとえば、OpenAI は Spotify と協力して、ポッドキャストのホストの音声を維持しながらポッドキャストを他の言語に翻訳しています。ただし、このモデルには、公人になりすましたり詐欺行為をしたりするために悪用される可能性など、いくつかのリスクもあります。そのため、OpenAIは、このモデルは広く公開されるのではなく、厳しく管理され、制限されると述べました。

画像入力機能はGoogle Lensに似ており、ユーザーは興味のあるものの写真を撮ってChatGPTにアップロードすることができます。 ChatGPT は、ユーザーが何を尋ねたいのかを識別し、それに応じて回答しようとします。ユーザーは、アプリの描画ツールを使用して質問を表現したり、音声またはテキスト入力を使用してコミュニケーションしたりすることもできます。 ChatGPT の利点は、1 回の検索ではなく、複数回の会話を実行できることです。ユーザーが回答に満足していない場合や、さらに詳しい情報を希望する場合は、ChatGPT に質問を続け、より正確で包括的な回答を得ることができます。もちろん、画像検索には潜在的な問題がいくつかあります。例えば、 OpenAIは、人物の写真を処理する際に、正確性を確保しプライバシーを保護するために、ChatGPTが人物を分析して直接評価する機能を制限したと述べている。つまり、人物の写真をアップロードしてその人が誰であるかを知ることはまだ不可能である。

IT Homeは、2022年初頭のChatGPTの発売以来、OpenAIが新たな問題の発生を避けながら、ロボットにさらに多くの機能と能力を追加するために懸命に取り組んでいることに気づきました。同社は今回のアップデートで、新モデルの機能を意図的に制限することで、その点でのバランスを取ろうとしている。しかし、このアプローチは長期的な解決策ではありません。音声制御や画像検索を使用する人が増え、ChatGPT が徐々に真にマルチモーダルで便利な仮想アシスタントになるにつれて、安全で合理的な境界を維持することがますます難しくなります。

<<: Open Interpreterは、大規模な言語モデルのコードをローカルで実行できるようにするオープンソースツールです。

>>: GitHub CEO: AIはプログラマーに取って代わることはできない

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

OpenAIがChatGPTをアップデート：画像と音声入力をサポート

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

概要: インターネット時代です!人工知能に関する4つの大きな誤解

「人工太陽」が正確に放電します！ DeepMind、AI制御の核融合で新たなブレークスルーを達成

新人機械学習エンジニアが犯しがちな6つの間違い

Stability AIがAIプログラミングツール「StableCode」をリリース

冬季オリンピックのテストマッチ、副審はAIだったことが判明

GPT-5 は 50,000 個の H100 で停止しています。アルトマンは、NVIDIAに代わるAIチップ帝国を築くために、緊急に数十億ドルを調達している。

推薦する

すべてのデータサイエンティストに必要な 3 つのシンプルな異常検出アルゴリズム

データセンターをよりスマートに: 人工知能はどのように役立つのか?

過去1年間、世界は人工知能の倫理について次のような考えを抱いてきた。

2027年のAIはどのようになっているでしょうか?ヒントは、あなたの脳の中にあります。

人工知能は将来の仕事や生活にどのような影響を与えるのでしょうか?

ベースラインモデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

AI「コスプレ」の鍵はキャラクター設定にあり！復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表：特性回復率は82.8％に達し、OOCを否定

3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

不動産業界における人工知能のメリットトップ10

Java プログラミングスキル - データ構造とアルゴリズム「フィボナッチ検索」