GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。

結果は良好です。

ChatGPT は、典型的な e-person、いや、「e-model」です。自信があり、決断力があり、生まれながらのリーダーシップスキルを持っています。

GPT-4 は真の「i-model」です。アップグレードすると、誰もが設定したさまざまな目標を達成することにのみ焦点を当てた「冷酷な」エキスパートマシンになります。

Bloom-7b、「i-model」+1、責任感と実用性に重点を置く。

Baichuan-7b、「e-model」、賢く、好奇心旺盛で、想像力豊か。

人間に対する洞察力は強いが、自分の価値観に固執するだけと言われる、大文字のINFJであるオープンソースのOpenLlama7bの光もあります。

写真

知っている家族。。ビッグモデルにも個性があることがわかりました。

ちょっとした意見の相違で会話を終わらせる Bing は、ある種の「扱いにくい」i なのでしょう。。（犬の頭）

写真

詳しく見てみましょう。

ビッグモデルのMBTIテスト

この調査はByteDanceが行ったものである。

おそらく、MBTI 性格テストが非常に人気があり (公式の無料テストリンクは記事の最後にあります)、大きなモデルが本当に人のように見えることがあるからでしょう。

著者は「大胆なアイデア」を思いつきました。

大型モデルによって性格は異なるのでしょうか?

写真

(注: 簡単に言えば、MBTI 性格テストは次の 4 つの指標に基づいて人の性格を評価します。

(1) エネルギーの源は社交的か独りでいること、つまり外向性か内向性か。 (2) 情報を得る方法は感覚的か直観的か。 (3) 意思決定の方法は理性的か感情的か。つまり思考的か感情的か。 (4) ライフスタイルは計画的か柔軟か。言い換えれば、外界を見る方法は能動的な判断（Judging）か受動的な知覚（Perceiving）か。

各傾向の最初の文字を取って「INFJ」や「ENFP」などの4文字の評価結果を形成すると、人は16の性格タイプに分類できます。現在、インターネット上の人々は、主に頭文字に基づいて「i 人」と「e 人」の 2 つの主要な陣営に分かれています。）

彼らは、テストする一連のモデル（合計 6 つ）を選択することから始めました。これらはすべて、元の論文のパラメータに従ってトレーニングされました。

ただし、リソースの制限により、ChatGPTとGPT-4を除いて、すべて約100億のパラメータを持つ小さなモデルです（OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b）。

MBTI は 93 個の複数選択質問で構成されており、形式は次のようになります。

写真

著者は各モデルにこれらの質問に確率値で答えるように求め、EI/SN/TF/JP の 4 つの組み合わせに従ってスコアを計算しました。

各モデルの最終スコアは次のとおりです。

写真

ご覧のとおり、モデルによって性格が異なります。GPT-4 は INTJ、ChatGPT は ENTJ、70 億のパラメータを持つ Bloom は ISTJ に属します...

下の図から、4 つの次元における異なるモデルの特定のパフォーマンスが一貫していないことがはっきりとわかります。一部のモデルには非常に明らかな傾向があります。たとえば、ChatGPT は特に I と N ですが、GPT-4 は特に N と T です。対照的に、Bloom7b と BaiChuan13b の場合、左側の値と右側の値の確率比は基本的に 1:1 です。

写真

さらに、著者らは、同じタイプのモデルでは、S/N、T/F、J/Pの3つの値セットが「遺伝性」を示すことも発見しました。たとえば、ChatGPTとGPT-4はどちらも「NTJ」に分類され、BaiChuan7bとBaiChuan13bはどちらも「NFP」に分類されます。

同時に、同じカテゴリのモデルでは、モデルパラメータがより大きくなり、i (手動ドッグヘッド) がより大きくなる可能性があります。

信じられないなら、GPT-4 (INTJ) vs ChatGPT (ENTJ)、BaiChun13b (INFP) vs BaiChuan7b (ENFP) を見てください。

著者は、E 型「モデル」と比較して、INTJ のような LLM はより強力な知識、推論、計画能力を持ち、人類に貢献するための最良の選択であると考えています。

立ち上がった（武士）

プロンプトプロジェクトを使用すると、「モジュール」を変更できます

異なる大型モデルには異なる性格があることを単純に確認した後、著者は新たなアイデアを思いつきました。

この現象は、簡単に混乱したり変化したりできる単なる偶然なのでしょうか?

そこで著者は2番目の疑問を提起し始めました。

大きなモデルの個性は、簡単なプロンプトエンジニアリングによって変更できるでしょうか?

結論としては「はい」ですが、それはモデル自体の理解能力に依存します。

ここで、著者はまず、ブルームモデルとバイチュアンモデルにそれぞれ 2 つのプロンプト手法を適用しました。

1 つは明示的なプロンプトです。つまり、MBTI の質問に答え始める前に、モデルに「あなたは外向的な性格で、革新的なコンセプトを思いつくのが好きで、自発性と即興性が強い」などの役割資格を与えます。

その結果、ブルームの性格タイプはISTJからINTPに変化し、S値は減少し、N値は増加しましたが、ほとんど変化はありませんでした。

一方、Baichuan は変化しておらず、依然として ENFP です。

写真

△ exp-promptは明示的なプロンプトを表します

そこで著者は、以下の表に示すように、いくつかのサンプル回答を暗黙のリマインダーとして使用し、暗黙のプロンプトを被験者に課しました。

写真

結果はあまり変わりません。i は i のまま、e は e のままです。

△ inexp-promptは明示的なプロンプトを表す

著者は、エンジニアリングが不十分なのではなく、2 つのモデルの理解力が乏しく、現在のレベルでは人間の指示に厳密に従うには不十分なのではないかと推測しています。

そこで彼らはChatGPTでもう一度試してみたところ、予想通りeがiになりました。

したがって、リマインダーエンジニアリングは有用であると言えますが、それは誰がそれを実行するかによって異なります。

そこで著者は、いったい何がビッグモデルの個性に影響を与えるのだろうかと考え始めました。

提案される仮説は、トレーニングデータセット (成長環境など) です。

ここから、3 番目の問題の解決を始めます。

トレーニングデータセットはモデルの性格にどの程度影響を与えますか?

実験方法は、異なるコーパスを使用して同じモデルをトレーニングすることです。具体的には、中国語版ウィキペディアコーパス、質問と回答コーパス、試験コーパスがそれぞれ Bloom と llama-v2 でのトレーニングとテストに使用されます。

結果は、i と e を除いて、2 つのモデルは基本的に変更されています (llama-v2 は中国語版 Wikipedia コーパスでは変更されていません。これは、モデルが以前に十分な中国語でトレーニングされていなかったためと考えられます)。特に、T/F および J/P 次元のスコアが大幅に変更されています。

写真