人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジュアル API は、その優れた結果が賞賛されたが、幻覚の問題があるとして批判された。 錯覚は常に、大規模モデルの致命的な欠陥でした。データ セットの複雑さにより、古くて誤った情報が存在することは避けられず、出力の品質が厳しくテストされることになります。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも一種の錯覚です。しかし、幻覚は解決不可能な問題ではありません。開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造とトレーニング方法を最適化することで、幻覚の問題をある程度軽減できます。 人気の大型モデルが多数ありますが、幻覚の緩和にはどの程度効果があるのでしょうか?その違いをわかりやすく比較したランキングがこちらです。 このランキングは、AIに重点を置いたVectaraプラットフォームによって公開されています。ランキングは2023年11月1日に更新された。Vectara社は、モデルが更新されるにつれて幻覚評価を継続的に追跡していくと述べた。 プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard このランキングを決定するために、Vectara はさまざまなオープンソース データセットを使用して要約モデルに関する事実の一貫性の研究を実施し、LLM 出力内の幻覚を検出するモデルをトレーニングしました。彼らは最先端のモデルを使用し、パブリック API を介して各 LLM に 1,000 件の短い文書を入力、文書に記載されている事実のみを使用して各文書を要約するように依頼しました。これら 1000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみであり、残りの文書はコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 Vectara は、これらの 831 件の文書を使用して、各モデルの全体的な精度と幻覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されたコンテンツには違法または安全でないコンテンツは含まれていませんでしたが、その中のトリガーワードは特定のコンテンツフィルターをトリガーするのに十分でした。これらの文書は主に CNN/Daily Mail コーパスからのものです。 Vectara は全体的な事実の正確性ではなく、要約の正確性を評価することに注意することが重要です。これにより、提供された情報に対するモデルの応答を比較できます。つまり、出力サマリーがソース ファイルと「事実上一貫している」かどうかが評価されます。各 LLM がどのようなデータでトレーニングされたかは不明であるため、特定の問題に対する幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同じかそれ以上の大きさのモデルをトレーニングする必要があります。そのため、Vectara は要約タスクにおける幻覚率を調べることを選択しました。これは、そのような類推がモデルの全体的な現実性を判断するための優れた基礎となるためです。 幻覚検出モデルのアドレス: https://huggingface.co/vectara/hallucination_evaluation_model さらに、LLM は、Bing Chat や Google Chat の統合など、ユーザーのクエリに回答するための RAG (Retrieval Augmented Generation) パイプラインでますます使用されるようになっています。 RAG システムでは、モデルは検索結果のアグリゲータとして展開されるため、このリーダーボードは、RAG システムで使用された場合のモデルの精度を示す優れた指標でもあります。 GPT-4 の一貫した優れたパフォーマンスを考えると、幻覚の発生率が最も低かったのは驚くことではないようです。しかし、一部のネットユーザーは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明した。 LLaMA 2 は GPT-4 と GPT-3.5 に厳密に従っており、パフォーマンスが向上しています。しかし、Google の大規模モデルのパフォーマンスは満足できるレベルには程遠い。一部のネットユーザーは、Google BARD は間違った回答を隠すために「まだトレーニング中です」という言葉をよく使っていると述べている。 このようなランキングリストがあれば、さまざまなモデルの長所と短所をより直感的に判断できます。数日前、 OpenAIはGPT-4 Turboをリリースし、一部のネットユーザーはすぐにランキングを更新することを提案しました。 次のランキングがどうなるか、大きな変化があるかどうかは、待って見なければなりません。 |
<<: OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか?清華大学などがProAgentをリリース
[[206375]]まず、Python とは何でしょうか? Python の作成者である Guido...
6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...
[[266831]]臨床医は世界で最も困難な仕事の一つです。彼らは、高齢の患者層に対応するために24...
[[374436]] 1.1 中国の数千万規模のインテリジェント交通プロジェクトの競争環境中国投資産...
[[324391]]インターネットの破壊的イノベーションは、自らの業界から生まれることはありません...
誰もがいつでもザクを操縦できるわけではありませんが、最近、優秀な大学生が「リモートコックピット」と呼...
[[408248]]最近、ディープラーニング AI を活用したビデオ監視プロジェクトに携わったことが...
9月8日、英国の新聞「ガーディアン」は、熱心な読者でも記者でもなく、サンフランシスコの人工知能スタ...
[[279460]]最近、「#小学生がアイテム拾いの顔認証のバグを発見#」という話題が注目を集めてい...
ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...
誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...
Microsoft と OpenAI の提携は、現在テクノロジー界で最も注目されているものの 1 つ...
現在注目を集めているヒューマノイドロボット分野において、ボストン・ダイナミクスは早期参入企業の1つで...
米国のハーバード大学とエモリー大学の研究者らが協力し、ヒト幹細胞から抽出した心筋細胞を使った「人工魚...