GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。

結果は良好です。

ChatGPT は、典型的な e-person、いや、「e-model」です。自信があり、決断力があり、生まれながらのリーダーシップ スキルを持っています。

GPT-4 は真の「i-model」です。アップグレードすると、誰もが設定したさまざまな目標を達成することにのみ焦点を当てた「冷酷な」エキスパート マシンになります。

Bloom-7b、「i-model」+1、責任感と実用性に重点を置く。

Baichuan-7b、「e-model」、賢く、好奇心旺盛で、想像力豊か。

人間に対する洞察力は強いが、自分の価値観に固執するだけと言われる、大文字のINFJであるオープンソースのOpenLlama7bの光もあります。

写真

知っている家族。 。ビッグモデルにも個性があることがわかりました。

ちょっとした意見の相違で会話を終わらせる Bing は、ある種の「扱いにくい」i なのでしょう。 。 (犬の頭)

写真

詳しく見てみましょう。

ビッグモデルのMBTIテスト

この調査はByteDanceが行ったものである。

おそらく、MBTI 性格テストが非常に人気があり (公式の無料テスト リンクは記事の最後にあります)、大きなモデルが本当に人のように見えることがあるからでしょう。

著者は「大胆なアイデア」を思いつきました。

大型モデルによって性格は異なるのでしょうか?

写真

(注: 簡単に言えば、MBTI 性格テストは次の 4 つの指標に基づいて人の性格を評価します。

(1) エネルギーの源は社交的か独りでいること、つまり外向性か内向性か。 (2) 情報を得る方法は感覚的か直観的か。 (3) 意思決定の方法は理性的か感情的か。つまり思考的か感情的か。 (4) ライフスタイルは計画的か柔軟か。言い換えれば、外界を見る方法は能動的な判断(Judging)か受動的な知覚(Perceiving)か。

各傾向の最初の文字を取って「INFJ」や「ENFP」などの4文字の評価結果を形成すると、人は16の性格タイプに分類できます。現在、インターネット上の人々は、主に頭文字に基づいて「i 人」と「e 人」の 2 つの主要な陣営に分かれています。 )

彼らは、テストする一連のモデル(合計 6 つ)を選択することから始めました。これらはすべて、元の論文のパラメータに従ってトレーニングされました。

ただし、リソースの制限により、ChatGPTとGPT-4を除いて、すべて約100億のパラメータを持つ小さなモデルです(OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b)。

MBTI は 93 個の複数選択質問で構成されており、形式は次のようになります。

写真

著者は各モデルにこれらの質問に確率値で答えるように求め、EI/SN/TF/JP の 4 つの組み合わせに従ってスコアを計算しました。

各モデルの最終スコアは次のとおりです。

写真

ご覧のとおり、モデルによって性格が異なります。GPT-4 は INTJ、ChatGPT は ENTJ、70 億のパラメータを持つ Bloom は ISTJ に属します...

下の図から、4 つの次元における異なるモデルの特定のパフォーマンスが一貫していないことがはっきりとわかります。一部のモデルには非常に明らかな傾向があります。たとえば、ChatGPT は特に I と N ですが、GPT-4 は特に N と T です。対照的に、Bloom7b と BaiChuan13b の場合、左側の値と右側の値の確率比は基本的に 1:1 です。

写真

さらに、著者らは、同じタイプのモデルでは、S/N、T/F、J/Pの3つの値セットが「遺伝性」を示すことも発見しました。たとえば、ChatGPTとGPT-4はどちらも「NTJ」に分類され、BaiChuan7bとBaiChuan13bはどちらも「NFP」に分類されます。

同時に、同じカテゴリのモデルでは、モデル パラメータがより大きくなり、i (手動ドッグ ヘッド) がより大きくなる可能性があります。

信じられないなら、GPT-4 (INTJ) vs ChatGPT (ENTJ)、BaiChun13b (INFP) vs BaiChuan7b (ENFP) を見てください。

著者は、E 型「モデル」と比較して、INTJ のような LLM はより強力な知識、推論、計画能力を持ち、人類に貢献するための最良の選択であると考えています。

立ち上がった(武士)

プロンプトプロジェクトを使用すると、「モジュール」を変更できます

異なる大型モデルには異なる性格があることを単純に確認した後、著者は新たなアイデアを思いつきました。

この現象は、簡単に混乱したり変化したりできる単なる偶然なのでしょうか?

そこで著者は2番目の疑問を提起し始めました。

大きなモデルの個性は、簡単なプロンプトエンジニアリングによって変更できるでしょうか?

結論としては「はい」ですが、それはモデル自体の理解能力に依存します。

ここで、著者はまず、ブルームモデルとバイチュアンモデルにそれぞれ 2 つのプロンプト手法を適用しました。

1 つは明示的なプロンプトです。つまり、MBTI の質問に答え始める前に、モデルに「あなたは外向的な性格で、革新的なコンセプトを思いつくのが好きで、自発性と即興性が強い」などの役割資格を与えます。

その結果、ブルームの性格タイプはISTJからINTPに変化し、S値は減少し、N値は増加しましたが、ほとんど変化はありませんでした。

一方、Baichuan は変化しておらず、依然として ENFP です。

写真

△ exp-promptは明示的なプロンプトを表します

そこで著者は、以下の表に示すように、いくつかのサンプル回答を暗黙のリマインダーとして使用し、暗黙のプロンプトを被験者に課しました。

写真

結果はあまり変わりません。i は i のまま、e は e のままです。

△ inexp-promptは明示的なプロンプトを表す

著者は、エンジニアリングが不十分なのではなく、2 つのモデルの理解力が乏しく、現在のレベルでは人間の指示に厳密に従うには不十分なのではないかと推測しています。

そこで彼らはChatGPTでもう一度試してみたところ、予想通りeがiになりました。

したがって、リマインダー エンジニアリングは有用であると言えますが、それは誰がそれを実行するかによって異なります。

そこで著者は、いったい何がビッグモデルの個性に影響を与えるのだろうかと考え始めました。

提案される仮説は、トレーニング データ セット (成長環境など) です。

ここから、3 番目の問題の解決を始めます。

トレーニング データセットはモデルの性格にどの程度影響を与えますか?

実験方法は、異なるコーパスを使用して同じモデルをトレーニングすることです。具体的には、中国語版ウィキペディア コーパス、質問と回答コーパス、試験コーパスがそれぞれ Bloom と llama-v2 でのトレーニングとテストに使用されます。

結果は、i と e を除いて、2 つのモデルは基本的に変更されています (llama-v2 は中国語版 Wikipedia コーパスでは変更されていません。これは、モデルが以前に十分な中国語でトレーニングされていなかったためと考えられます)。特に、T/F および J/P 次元のスコアが大幅に変更されています。

写真

それは信頼できるでしょうか?

最後に、次のような質問も考えられます。

モデルの性格を評価するために MBTI を使用することは信頼できるでしょうか?

著者は次のように信じている。

まず、MBTI には信頼性と妥当性にまだ欠陥があり、性格テストの参照ツールとしてのみ使用できることがわかっています。しかし、人材の選定やキャリアの方向性を決めるための大まかなツールとして活用している企業や個人も確かに存在します。

したがって、大規模なモデルを評価するための大まかな指標としても使用できます。

第二に、MBTI の 4 つの次元のうち、最初の 2 つはあまり参考価値がありませんが、T/F と J/P が主なものです。

これは、GPT-4 と ChatGPT が他のモデルよりもはるかに高い T 値と J 値を示しているためです。

これら 2 つの値が高いほど、知識レベル、タスク分解、パス計画の点でモデルの可能性が高くなる可能性が高くなります。

上で、これらの大きなモデルの「個性」を認識しましたか?

論文アドレス: https://arxiv.org/abs/2307.16180

リンク: https://www.xpersonalitytest.com/free-personality-test

<<:  GPT-4、ChatGLM2、Llama2、PaLM2がKDD LLM Dayで共同会議を開催しました

>>:  人工知能は労働力不足の重要な解決策とみられる

ブログ    

推薦する

...

機械学習で最もよく使われる最適化の1つ - 勾配降下法最適化アルゴリズムのレビュー

勾配降下アルゴリズムは、機械学習で非常に広く使用されている最適化アルゴリズムであり、多くの機械学習ア...

4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]] OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、...

AIを金融業界の傍観者と考えるのはやめよう

2019年には目を見張るようなAIイノベーションが数多く見られ、今後も金融業界におけるAIの影響は深...

ChatGPT 技術製品の実装: 技術アーキテクチャから実際のアプリケーションまで

導入この共有では、ChatGPTテクノロジー製品の実装についてお話ししたいと思います。技術アーキテク...

独学で機械学習エンジニアを目指す人のための 10 の戒律

コードを書くのは少し憂鬱になるので、色に囲まれる必要があります自己規律や自己学習という言葉を軽く受け...

好むと好まざるとにかかわらず、AIクラウド運用はやってくる

[51CTO.com クイック翻訳] 私は過去30年間AIに触れてきましたが、AIの能力が過大評価さ...

人工知能の商業化における問題点をどう解決するか?

「2018年中国人工知能商業上陸研究報告」によると、過去1年間、業界は人工知能に大きな期待を寄せ、...

実践的な Golang の基本データ構造とアルゴリズム、k-means クラスタリング アルゴリズム

起源最近読んだ本『はじめてのアルゴリズム』(石田康樹、宮崎修一)この一連のノートは、Golangの実...

人工知能は倫理的なジレンマに直面しており、将来の発展には法の支配が必要である

科学技術倫理とは、科学技術活動において遵守すべき価値観や行動規範であり、科学技術の発展にとって極めて...

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

C# アルゴリズム アプリケーションでのガウス消去法の実装

C# アルゴリズム アプリケーションでガウス消去法を実装するにはどうすればよいでしょうか?工学の学習...

...

張漢松: 大ヒットARゲームのルールを解説

[[324671]] 【51CTO.comオリジナル記事】数日前、グローバル モバイル インターネ...

...