言語AIは自分の答えが正しいかどうかを知っていることが判明しました。バークレー大学や他の大学による新たな研究が人気を集めている

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

言語AIは人間と同等の自己検査能力を持つ:

最近、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究チームが次のことを示しました。

自分の答えが正しいかどうかを判断できるだけでなく、トレーニング後には質問に対する答えを知っている確率を予測することもできます。

研究結果が発表されると、白熱した議論が巻き起こり、一部の人々の最初の反応はパニックでした。

この成果はニューラルネットワーク研究にとってプラスの影響を与えると考える人もいます。

言語AIは自己検査能力を持つ

研究チームは、言語 AI モデルを自己評価するには、次の前提条件が必要であると考えています。

言語 AI は質問に答えるときに、その回答を調整します。

ここでのキャリブレーションとは、言語 AI によって予測された回答の正しい確率が実際の確率と一致しているかどうかを指します。

このようにしてのみ、言語 AI はこの調整機能を使用して、出力する回答が正しいかどうかを評価できます。

最初の質問は、言語 AI は独自の回答を調整できるかどうかです。

この問題を証明するために、研究チームは AI 向けに 5 つの選択式の質問を用意しました。

回答の選択肢は、A、B、C の形式で示されます。

AI モデルの回答が偶然よりも頻繁に正しい場合、AI モデルによって提供された回答が調整されていることが証明されます。

テスト結果によると、言語 AI によって提供される回答は、いずれかのオプションが選択される可能性よりもはるかに正確です。

つまり、言語 AI モデルは独自の回答を非常に適切に調整できるということです。

しかし、研究チームは、言語AIのキャリブレーション能力は選択肢に対する答えが明確であるという前提に基づいていることを発見しました。

曖昧な「上記のいずれでもない」オプションを追加すると、言語 AI の調整機能が損なわれます。

つまり、特定の形式の複数選択問題では、言語 AI モデルは回答を非常に適切に調整できます。

この前提を明確にした後、次の問題は、言語 AI モデルが独自の回答が正しいかどうかを判断できるかどうかを検証することです。

このテストラウンドでは、AI モデルの予測が有効な決定境界に近づいています。

研究チームは、前回のテストからの質問と、言語 AI モデルの回答サンプルを選択しました。

同時に、AI モデルにその回答が真か偽かを選択させ、この「真」または「偽」の回答に基づいて AI モデルが有効な調整を行ったかどうかを分析します。

問題設定の例は以下のとおりです。

研究チームは、20回の真偽テストを行った後、言語AIモデルが自身の回答を「真」か「偽」かで評価する評価が明らかに調整されていることを発見した。

つまり、一定の範囲内で AI モデルにいくつかの質問がされた場合、AI モデルはこれらの質問に対する回答の真偽を、合理的かつ調整された信頼度レベルで評価します。

これは、言語 AI モデルが質問に対する自身の主張が正しいかどうかを実際に判断できることも証明しています。

最後に、研究チームは言語 AI モデルに、より難しい質問をしました。AI モデルは、与えられた質問に対する答えを知っているかどうかを予測するようにトレーニングできるでしょうか?

この部分では、研究チームはデータP(IK) （私はこの答えの確率を知っています）を導入し、トレーニングに次の2つのトレーニング方法のいずれかを選択しました。

値ヘッド: P(IK) は追加の値ヘッドとしてトレーニングされ、モデルのロジットに追加されます (言語モデリングロジットとは独立しています)。このアプローチの利点は、研究チームが P(IK) の一般的なマーカー位置を簡単に検出できることです。
自然言語: この方法は比較的単純です。AI モデルが文字通り「この答えを知っている確率はどれくらいですか」と答え、パーセンテージデータの回答を出力する必要があります。

研究チームはトレーニングの初期段階では自然言語によるトレーニング方法を好んでいましたが、結果が有意ではなかったため、価値重視のアプローチに転向しました。ただし、研究チームは最終的にAIモデルのトレーニングは自然言語による方法に戻るとも述べています。

研究チームはトレーニング後、言語AIモデルがP(IK)をうまく予測できること、そしてこの予測能力がさまざまな種類の問題において部分的に普遍的であることを発見しました。

しかし、研究チームは、言語 AI モデルでは算数問題などの特定の種類の問題に対する OOD 調整に若干の困難があることも発見しました。

この学術的成果に関して、研究チームは、今後の方向性として、これらの成果を人間の文章を模倣することなく自己学習や事実推論の分野に拡張することだと述べています。

著者について

論文の責任著者であるジャレッド・カプラン博士は、理論物理学者であり、機械学習の専門家です。彼は現在、ジョンズ・ホプキンス大学の助教授です。彼の主な研究分野は、ニューラルモデルのスケーリング法則や GPT-3 言語モデルを含む機械学習の研究です。

共同著者の Saurav Kadavath 氏は Anthropic の研究者であり、現在はカリフォルニア大学バークレー校で EECS の修士号を取得中です。主な研究分野は機械学習、大規模言語学習などです。

<<: 認知分析について知っておくべきことすべて

>>: ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

言語AIは自分の答えが正しいかどうかを知っていることが判明しました。バークレー大学や他の大学による新たな研究が人気を集めている

言語AIは自己検査能力を持つ

著者について

人工知能が私たちの生活に及ぼす8つの影響

人工知能は世界をどう変えるのか：BBCがAIのAからZまでをまとめる

人工知能時代の技術者が習得すべき5つのスキル

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

清華大学・黄敏烈氏：GoogleのAI人格は本当に目覚めたのか？

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

百度地図のデータ収集リンクの80％はAIベースになっており、旅行業界はインテリジェントにアップグレードされている

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

推薦する

2023 年に最も影響力のある 10 のオープンソース大規模言語モデル

オフライン認識率が最大99%のオープンソースPython顔認識システム〜

200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

Googleの創設者が個人的にGeminiのコードを書いたが、これは非常に核心的なものだ

人類の生存に関わる問題ですか? AI システムの説明可能性を調査する理由は何ですか?

AIは期待に応えられていない？これらの人為的ミスが発生した可能性がある

将来、人工知能は人間の意識を発達させるでしょうか?

ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

2023年の生成AIの包括的なレビュー

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか？

RAGから富へ:人工知能の幻想を払拭する

マイクロソフトがSkypeアプリをアップデート: 通話インターフェースの改善、カメラエクスペリエンスの最適化、Bingチャットの強化