大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジュアル API は、その優れた結果が賞賛されたが、幻覚の問題があるとして批判された。

錯覚は常に、大規模モデルの致命的な欠陥でした。データ セットの複雑さにより、古くて誤った情報が存在することは避けられず、出力の品質が厳しくテストされることになります。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも一種の錯覚です。しかし、幻覚は解決不可能な問題ではありません。開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造とトレーニング方法を最適化することで、幻覚の問題をある程度軽減できます。

人気の大型モデルが多数ありますが、幻覚の緩和にはどの程度効果があるのでしょうか?その違いをわかりやすく比較したランキングがこちらです。

このランキングは、AIに重点を置いたVectaraプラットフォームによって公開されています。ランキングは2023年11月1日に更新された。Vectara社は、モデルが更新されるにつれて幻覚評価を継続的に追跡していくと述べた。

プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard

このランキングを決定するために、Vectara はさまざまなオープンソース データセットを使用して要約モデルに関する事実の一貫性の研究を実施し、LLM 出力内の幻覚を検出するモデルをトレーニングしました。彼らは最先端のモデルを使用し、パブリック API を介して各 LLM に 1,000 件の短い文書を入力、文書に記載されている事実のみを使用して各文書を要約するように依頼しました。これら 1000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみであり、残りの文書はコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 Vectara は、これらの 831 件の文書を使用して、各モデルの全体的な精度と幻覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されたコンテンツには違法または安全でないコンテンツは含まれていませんでしたが、その中のトリガーワードは特定のコンテンツフィルターをトリガーするのに十分でした。これらの文書は主に CNN/Daily Mail コーパスからのものです。

Vectara は全体的な事実の正確性ではなく、要約の正確性を評価することに注意することが重要です。これにより、提供された情報に対するモデルの応答を比較できます。つまり、出力サマリーがソース ファイルと「事実上一貫している」かどうかが評価されます。各 LLM がどのようなデータでトレーニングされたかは不明であるため、特定の問題に対する幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同じかそれ以上の大きさのモデルをトレーニングする必要があります。そのため、Vectara は要約タスクにおける幻覚率を調べることを選択しました。これは、そのような類推がモデルの全体的な現実性を判断するための優れた基礎となるためです。

幻覚検出モデルのアドレス: https://huggingface.co/vectara/hallucination_evaluation_model

さらに、LLM は、Bing Chat や Google Chat の統合など、ユーザーのクエリに回答するための RAG (Retrieval Augmented Generation) パイプラインでますます使用されるようになっています。 RAG システムでは、モデルは検索結果のアグリゲータとして展開されるため、このリーダーボードは、RAG システムで使用された場合のモデルの精度を示す優れた指標でもあります。

GPT-4 の一貫した優れたパフォーマンスを考えると、幻覚の発生率が最も低かったのは驚くことではないようです。しかし、一部のネットユーザーは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明した。

LLaMA 2 は GPT-4 と GPT-3.5 に厳密に従っており、パフォーマンスが向上しています。しかし、Google の大規模モデルのパフォーマンスは満足できるレベルには程遠い。一部のネットユーザーは、Google BARD は間違った回答を隠すために「まだトレーニング中です」という言葉をよく使っていると述べている。

このようなランキングリストがあれば、さまざまなモデルの長所と短所をより直感的に判断できます。数日前、 OpenAIはGPT-4 Turboをリリースし、一部のネットユーザーはすぐにランキングを更新することを提案しました。

次のランキングがどうなるか、大きな変化があるかどうかは、待って見なければなりません。

<<:  OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか?清華大学などがProAgentをリリース

>>: 

ブログ    

推薦する

変数からカプセル化まで: この記事は機械学習のための強固なPythonの基礎を築くのに役立ちます

[[206375]]まず、Python とは何でしょうか? Python の作成者である Guido...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...

人工知能は医療従事者の燃え尽き症候群を軽減すると期待されている

[[266831]]臨床医は世界で最も困難な仕事の一つです。彼らは、高齢の患者層に対応するために24...

2020年から2024年までの中国のインテリジェント交通産業の予測分析

[[374436]] 1.1 中国の数千万規模のインテリジェント交通プロジェクトの競争環境中国投資産...

インターネットの大失敗: 破壊された破壊者

[[324391]]インターネットの破壊的イノベーションは、自らの業界から生まれることはありません...

ガンダムの運転をシミュレーションしますか? !優秀な学生が高度にシミュレーションされた運転体験ロボットシステムを発明し、白熱した議論を巻き起こした。

誰もがいつでもザクを操縦できるわけではありませんが、最近、優秀な大学生が「リモートコックピット」と呼...

AIとディープラーニングはもはやハイエンドのビデオ監視アプリケーションに限定されたものではない

[[408248]]最近、ディープラーニング AI を活用したビデオ監視プロジェクトに携わったことが...

...

人工知能はあらゆる点で人間よりも優れているのに、なぜ人間の言っていることを理解できないのでしょうか?

9月8日、英国の新聞「ガーディアン」は、熱心な読者でも記者でもなく、サンフランシスコの人工知能スタ...

商品受け取り時の顔認証システムを小学生が“クラック”!鳳超が緊急オフラインに

[[279460]]最近、「#小学生がアイテム拾いの顔認証のバグを発見#」という話題が注目を集めてい...

「中国版ダヴィンチ」ロボットが人気!ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...

スタンフォード大学の学生が出会い系アプリをハッキング! GAN モデルを使用して男性に変装し、顔認識システムを欺く

誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...

社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

Microsoft と OpenAI の提携は、現在テクノロジー界で最も注目されているものの 1 つ...

素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう

現在注目を集めているヒューマノイドロボット分野において、ボストン・ダイナミクスは早期参入企業の1つで...

ロボットの魚は本物の魚よりも速く泳ぎます!人間の心筋細胞から作られた紙の魚は108日間自律的に泳ぐことができる

米国のハーバード大学とエモリー大学の研究者らが協力し、ヒト幹細胞から抽出した心筋細胞を使った「人工魚...