AI「コスプレ」の鍵はキャラクター設定にあり！復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表：特性回復率は82.8％に達し、OOCを否定

好きなアニメ小説のキャラクターとチャットしてみませんか?バーチャルコンパニオンが欲しいですか?あなた専用のデジタルエージェントが必要ですか?

大規模言語モデル (LLM) の開発により、こうした過去の空想は現実に近づいているようです。

キャラクターAI、涼宮ハルヒのチャット、ヤンデレAIガールフレンドシミュレーター...大規模な言語モデルに基づくロールプレイングチャットボットは、世界中のユーザーの注目を集めています。

特定のシナリオを構築して提供するために多くのエンジニアリングを必要とした従来のチャットボット (Microsoft XiaoIce など) と比較して、最近の大規模な言語モデルでは、シンプルなプロンプトエンジニアリングとメモリメカニズムのみを使用して、さまざまな ID、性格、記憶、言語習慣を持つロールプレイング AI を簡単に構築できます。そのため、ロールプレイング用の AI はますます人気が高まっています。

それにもかかわらず、ロールプレイング AI に関する分析研究、特にその評価に関する研究は依然として非常に少ないです。 AI ロールプレイングが優れているかどうかを評価するにはどうすればよいでしょうか?

二次元コスプレサークルや二次創作サークルでは「アウト・オブ・キャラ（OOC）」であってはならないことが重視されている。

ロールプレイング AI を評価する上で、役割が適切に復元されているかどうかが重要な側面であることがわかります。

最近、復旦大学、中国人民大学、涼宮ハルヒチャットチームが共同で論文を発表し、ロールプレイングAIが性格特性の観点から復元されるかどうかを研究した。

論文リンク: https://arxiv.org/pdf/2310.17976.pdf

プロジェクトリンク: https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality

本論文では、研究者らはビッグファイブパーソナリティやMBTIなどの心理学における性格関連の理論に基づいて、ロールプレイングAIの性格テストを実施しました。

研究者らは、ロールプレイングAI向けに設計されたインタビューベースの性格テストフレームワークを提案しました。彼らは、性格テストスケールに基づいてロールプレイングAIと自由形式の質問と回答を実施し、LLMまたは16Personalities APIを使用してロールプレイングAIの性格特性を予測し、それを人間のファンに広く認識されている性格ラベルと比較しました。

実験結果によると、既存のロールプレイングAIのキャラクターの性格特性への復元率は82.8％に達した。

方法の概要

自由回答形式の質問に基づく面接ベースの性格テスト

既存の LLM はまだ人間の知能からは程遠いですが、心理学的観点からは古典的な「刺激-反応」システムとみなすことができます。

したがって、心理学的性格研究のパラダイムは、LLMの行動パターンの研究にうまく利用できる[1]。最近の研究では、LLMが安定した一貫した性格特性を持っているかどうかを調査し[2]、特定の性格を持つAIをカスタマイズしようと試みています[3]。

これらは通常、60 以上の質問を含むアンケートを使用して、さまざまな側面から LLM の性格をテストします。たとえば、ビッグファイブの性格特性には、開放性、情緒不安定性、誠実性、協調性、外向性が含まれますが、MBTI には、外向性/内向性、感覚/直観、思考/感情、判断/知覚が含まれます。

既存の研究では、一般的にリッカート尺度が使用されています。これは、被験者または LLM に、「強く同意する」、「同意する」、「どちらでもない」、「同意しない」、「強く同意しない」などの異なるレベルの 5 つまたは 7 つのオプションから 1 つを選択するように指示するものです。

ただし、このアプローチにはロールプレイング AI にとって多くの欠点があります。

1. 選択肢を与えることは人間の被験者にとってはより効率的ですが、この方法では自由回答形式の質問に比べて非常に限られた情報しか得られません。

2. オプションベースの質問と回答は、ロールプレイング AI の動作をうまく刺激できず、ベース LLM のトレーニングデータの影響を受けやすく、ロールプレイング AI と一致しないオプションが生成されます。

3. 興味深いことに、個性のはっきりしたキャラクターの中には、キャラクターの個性を非常によく復元するため、与えられた選択肢に協力することを拒否する人もいます。

そこで研究者らは、ロールプレイング AI 向けに設計された、尺度に基づく自由形式の質問と回答を通じて性格テストを実施するインタビューベースの性格テストフレームワークを提案しました。

研究者らは、ビッグファイブパーソナリティのNEO-FFI質問票とMBTIの16パーソナリティを書き直し、LLMを使用して質問を陳述文から自由形式の質問を導く質問文に書き直し、新しい尺度の質問票を作成しました。

宣言的疑問

質問と回答

研究者らは、ChatHaruhi の 32 個のロールプレイング AI (基本モデルとして gpt-3.5-turbo に基づく) に対してインタビュー形式の性格テストを実施しました。

研究者は、各ターゲットロール AI に対して、関連するロールを実験者として設定し、最終スケールの質問票から順番に質問を選択し、ターゲットロールに質問し、ロール AI が回答として自由形式の応答を返すようにしました。

質問間の相互影響を避けるために、各質問は異なる文脈で尋ねられます。その後、各スケールの各キャラクターのすべての質問と回答のペアが、性格評価の基礎として記録されました。

ロールプレイングAIの規模での自由形式の質問と回答の例

スケールの質問に対する回答に基づいてキャラクターの性格特性を評価する方法は 2 つあります。 1 つは、既存の作業と同様に、キャラクター AI の回答をリッカート尺度のオプションに変換し、16 Personalities などの API を通じて性格評価を行うことです。

この研究では、GPT-4やChatGPTなどのLLMを使用して、質問と回答のペアに基づいてキャラクターAIの性格評価を実行する別の方法を提案しました。

研究者らは、スケール質問票における役割 AI の質問と回答のペアをさまざまな次元に分割し、各次元の質問と回答のペアを一度に、または複数のグループに分けて LLM に入力し、その次元における役割 AI のスコアを取得しました。

Big Five では、キャラクター AI は各次元で -5 から 5 の間のスコアを取得します。MBTI では、キャラクター AI は各次元で 2 つのスコアを取得し、合計が 100% になります (例: 30% E / 70% I)。スコアが 50% を超えるカテゴリとして予測されます。

実験結果

さまざまなロールプレイングAIのビッグファイブ性格テストの結果

上の図は、ChatHaruhi の 32 個のロールプレイング AI を Big Five Personality Scale でテストした結果を示しています。結果は、ロールプレイング AI がさまざまな役割に応じて多様な性格特性を発揮できることを示しています。

しかし、彼らの性格特性は、ベースとなる LLM の「ベース性格」によっても大きく影響されます。たとえば、ロールプレイング AI の平均スコアは、感情の不安定さの次元では -1.69、誠実さの次元では 1.56 でした。

研究者らは、ChatGPT などの LLM は詳細で役立つ肯定的な回答を出す傾向があるようにトレーニングされているため、これは文字選択における事前の偏りとベースモデルの影響の両方によるものだと推測しています。

これを研究するために、研究者らは 32 個のロールプレイング AI の平均性格スコアをベースモデル自体の性格スコアと比較し、ChatGPT と GLMPro を 2 つの異なるベースモデルとして選択しました。

上図の結果によると、「感情の不安定さ」（神経症）の次元では、ロールプレイング AI の平均スコアが背景モデルと比較的一致しているのに対し、他の次元では明らかな対応する相関関係は見られないことがわかります。

さまざまなロールプレイングAIのMBTIテスト結果

研究者らはまた、ロールプレイングAIにMBTIテストを実施し、オンラインで収集された性格ラベルと比較した。ほとんどの性格ラベルは www.personality-database.com から取得されます。ここでは、多数のファンユーザーがキャラクターの MBTI 性格に投票し、各次元の投票率を確認できます。

研究者らは、投票率が40%～60%のラベルを「物議を醸す」ラベルとみなし、精度を計算する際には考慮しなかった。図中の赤い文字は誤って予測された次元を示し、ピンクの文字は誤って予測されたがラベル自体が議論の余地がある次元を示します。

次に研究者らは、ロールプレイングAIの性格テスト結果の正確性、つまりファンのラベルとの一貫性を計算した。

精度に影響を与える要因は、ロールプレイング AI 自体のパフォーマンスと、性格テスト方法の有効性の 2 つであることに注意してください。ここでの実験は、性格テスト方法の有効性を分析することに重点を置いているため、制御ロールプレイング AI は gpt-3.5-turbo に基づく ChatHaruhi モデルです。

ロールプレイングAIの性格テスト結果の正確さ

実験結果によると、本研究で提案された性格検査方法は、ChatHaruhiのロールプレイングAIの検査結果と人間のファンのラベルとの間で単一次元で82.76%の一致率を持ち、キャラクターの完全なMBTIラベルを予測する精度は50%でした。

この結果は、本論文で提案した性格検査方法の有効性を実証するとともに、既存のロールプレイング AI が対応するキャラクターの性格特性を効果的に復元できることを示しています。

要約する

この研究では、性格テストの観点からロールプレイング AI の再現性を評価します。この記事では、ロールプレイング AI 用の性格テストフレームワークを提案しています。これには、ロールプレイング AI 用の自由形式の質疑応答スケールの質問と、質疑応答の結果の性格を評価するための LLM の使用が含まれます。

研究者らは、ChatHaruhiのロールプレイングAI32台に対してビッグファイブとMBTIの性格テストを実施し、人間のファンが注釈を付けた性格ラベルと比較したところ、既存のロールプレイングAIがすでにキャラクターの性格特性をうまく復元できることが示された。

今後の研究では、著者らはロールプレイングAIの性格復元をさらに改善する方法を研究し、LLMによる性格評価結果と心理学の専門家による結果の一貫性に関する研究も含める予定である。

<<: コンピュータビジョンにおけるステレオビジョンと奥行き知覚の例

>>: 北京大学の動画モデルが新たなSOTA、AIは数秒で面白いTik Tok動画の面白いポイントを理解できる