自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]

編集者注：現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会が開催されます。トランプ氏と対立候補のヒラリー・クリントン氏は、セントルイスのワシントン大学で90分間の第2回選挙討論会を開催します。

スピーチでも討論でも、両候補者はそれぞれ独特の「話し方」を持っています。意味解析と自然言語処理を使って彼らの話し方を分析するのは興味深いことです。この記事では、自然言語処理を使用して 2 人の大統領候補の指名演説を分析し、言葉の選択やスピーチのリズムの異なる特徴を明らかにします。

データサイエンスは多くの分野に応用できます。画像処理から人工知能まで、あらゆることが可能です。中でも、セマンティック分析はソーシャルメディアのモニタリングに非常に役立ちます。この記事は、Twitter や Facebook 上のコメントの分析ではなく、政治に焦点を当てています。

今年7月21日、オハイオ州クリーブランドで開催された共和党全国大会の最終日に、ドナルド・トランプ氏が共和党の大統領候補指名を受諾した。 1週間後の28日、ヒラリー・クリントンはフィラデルフィアで民主党の大統領候補指名を受諾した。

彼らは家族や何千人ものファンの支援を受けながら指名演説を行った。この記事では、この政治的コミュニケーションの背後にある隠された意味をより深く理解するためにこれを分析します。この記事では、語彙、スタイル、リズムという 3 つの特徴に焦点を当てます。

語彙を深く学ぶ

誰が最も多くの語彙を使用しているかを評価する 1 つの方法は、話者が使用する固有の単語の数を確認することです。これを行うには、まず英語で「意味」を持たない単語（「the」、「a」、「of」など）を削除する必要があります。これらの単語はストップワードとも呼ばれます。リストは http://www.ranks.nl/stopwords にあります。 2 番目に、繰り返される単語は 1 回しかカウントされません。スノーボールステマーアルゴリズムは、英語の名詞の単数形と複数形、および動詞のさまざまな人称時制を処理するためにも使用されます。たとえば、Leaders と Leader は 1 つの単語として扱われ、Am と Are も 1 つの単語として扱われます。

注: Snowball Stemmer アルゴリズムの詳細については、http://snowball.tartarus.org/texts/introduction.html を参照してください。

トランプ氏の演説の語彙の約 13% が独特であることがわかりました (全文の 7,460 語のうち 965 語が語幹に含まれています)。平均すると、各単語は 7.7 回繰り返されました。ヒラリーには 17% の固有単語があり、各単語は平均で約 6 回繰り返されます。違いは明らかです。トランプ氏のスピーチの80%はたった480語でしたが、ヒラリー氏のスピーチは665語必要でした。つまり、38%も余分に必要であり、成果が出始めているということです。

候補者のスピーチの80%を占める語彙

スピーチの効果は、話し手のスタイルにある程度左右されます。この記事では、両候補者の最も愛されている言葉を見つけ出そうとします。「トランプっぽい」または「ヒラリーっぽい」言葉を探します。つまり、ある候補者が最も頻繁に使用し、その競争相手が最も頻繁に使用しない言葉を見つけます。例えば、「本当に」という言葉はトランプ氏の演説では15回登場したが、ヒラリー氏の演説では1回しか登場しなかった。これを行う 1 つの方法は、各単語の「オッズ比」を計算することです。式は次のとおりです。

分子はトランプ氏の語彙に単語が出現する確率であり、分母は同じ単語がヒラリー氏の文章に出現する確率である。対数を取ることで効率的にソートできます。2 つの項目が均等に一致する場合、対数は 0 になります。そうでなければ、それは否定的（ヒラリースタイル）か肯定的（トランプスタイル）のどちらかです。結果は次のとおりです。

私たちが最初に気づいたのは、トランプ氏が「本当に」「いいな」「素晴らしい」「問題」といった短くて一般的な言葉を何度も使うのが好きだということだ。我々が感じることができるもう一つのことは、共和党候補者がメキシコ、中国、イランに対して特定の偏見を持っているということだ。全体的に見ると、トランプ氏は国際問題に重点を置いているようだ。彼が言及した外交問題のほとんどは、恐怖を煽り、スケープゴートを見つけることを目的としていた。

ヒラリーのほうが語彙が広い。「ヒラリー風」の言葉はより稀な傾向にあります。ヒラリー・クリントンはトランプよりもはるかに多くの回数「アメリカ」について言及した: 27:5。「ヒラリースタイル」の語彙は、ヒラリーの演説がより国内問題に重点を置いていることを示唆している。彼女の代表的な言葉には、「一緒に」「キャンペーン」「一生懸命」などがあります。彼女の演説にはドナルド・トランプの名前も何度も登場した。

注意深い読者は、「トランプ」という言葉が「ヒラリースタイル」の語彙リストに登場していないことに気づくだろう。これは、トランプが演説の中で自分の名前を何度も（10回）言及したため、オッズ比が下がったためである。対照的に、ヒラリーの名前は2回しか言及されなかった。1回はヒラリー自身の演説（夫のビル・クリントンについて言及）で、もう1回はトランプ氏によって言及された。そして、ヒラリー風の「望む」という言葉は、彼女の対立候補に対する批判の中にも現れている（「彼は我々を分裂させたいのだ…」「彼は我々が未来を恐れ、お互いを恐れることを望んでいるのだ」）。どうやら、ヒラリーはトランプについて話し、トランプは…自分自身について話していたようだ！

誰もがトランプについて話している

双方が使用している言葉も見てみましょう。それらは両者の間の合意を表しています。当然のことながら、それらは「仕事」、「国」、「考え方」です。二人とも「ありがとう」と何度も言ったが、言い方は違った。ヒラリー氏は具体的に数人に感謝したのに対し、トランプ氏は主に拍手する観客に感謝した。

話し方のリズム

両候補者は、異なる経歴を持つため、独自のリズムを持っています。言語の固有のリズムを評価するには、まずスピーチを文に分解し、次に文を単語に分解してみるのが良いでしょう。トランプ氏の演説の方が長く、625文、7,460語であることがわかった。ヒラリー・クリントンはたった405の文と6,088語しか使わなかった。つまり、トランプ氏は対立候補よりも54％多く文章を使い、文章も23％長かった。

トランプ氏の平均的な文の長さは12語であるのに対し、ヒラリー氏の文はわずかに長く、1文あたり平均15語である。トランプ氏の文章のほとんどは短く、彼の演説の21%は5～6文の短い文章で構成されています。ヒラリーの文章はより均等に間隔が空いており、12語が最も多かった。

オバマ氏の刑期はトランプ氏とヒラリー氏の刑期を合わせたのと同じ長さ

トランプ氏とヒラリー氏の間には明らかな違いが見られる。トランプ氏の演説はシンプルで明確である一方、ヒラリー氏の演説はより多様で穏やかである。しかし、待ってください！彼女は珍しい人ではありません。オバマ大統領の最初の指名演説では、1文あたり平均25.7語で、ヒラリー氏とトランプ氏の合計語数とほぼ同じです。オバマ氏はまた、言葉を繰り返す回数がヒラリー氏より24％少なく、トランプ氏より42％少なかった。これは、ヒラリー氏のペースが少し遅く、文章構造が少し複雑であるにもかかわらず、彼女の話し方が対立候補のそれと非常に似ていることを示していると思います。

最後に

自然言語処理は正確な科学ではありません。それは、スピーチを理解するための手がかりや要素をいくつか提供することしかできません。コーパスも短いため、より正確な特徴を抽出するにはさらに分析が必要です。しかし、この分析から何がわかったのでしょうか?

1. トランプ氏はすべてが「真実」「善」「素晴らしい」と語り、一方ヒラリー氏は「アメリカのために」「共に」「機能」できると語る。

2. トランプは自分自身について話し、ヒラリーはトランプについて話す。クリントン氏はより豊富な語彙とより複雑な文構造を使用しているが、多かれ少なかれトランプ氏の話し方を取り入れているようだ。

3. オバマ氏の指名演説（2回とも）では、はるかに多くの語彙とはるかに複雑な文構造が使用されており、トランプ氏がそのような国家演説を大幅に簡素化したことを示唆している。

<<: KDnuggets 公式調査: データサイエンティストが最もよく使用する 10 のアルゴリズム

>>: 推奨システムでよく使用される推奨アルゴリズム

ガートナー：テクノロジープロバイダーの33％が2年以内にAIに100万ドル以上を投資する

自然言語処理がヒラリーとトランプの「話し方」を分析

ガートナー：テクノロジープロバイダーの33％が2年以内にAIに100万ドル以上を投資する

AR/AIにはリアルタイムの光補正アルゴリズムが必要、パシフィック・フューチャー・テクノロジーは技術革新のチャンスをつかめるか？

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル：行列演算はもう使わない

写真の中のキャラクターを動かしたり歌わせたりできます！このAIブラックテクノロジーは台無しになった

詳細レポート: ビッグモデルが AI を全面的に加速させます!黄金の10年が始まる

10億のデータから数字を素早く見つける方法 | 定番アルゴリズムBitMapの詳しい説明

海外メディア：科学者らが深海を探索できる魚のようなソフトロボットを設計

心が開かれました！ Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

待ちに待った！ ByteDance初の大規模モデル製品「Doubao」が公開テスト可能、招待コードは不要！

推薦する

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ネットユーザーたちは、顔認識技術の何が難しいのかと冗談を言っている。

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

ディープラーニング：新興技術の限界を押し広げる

自動運転のための LiDAR とビジョンフュージョン認識の理解

スイスマイルは、立って都市部での配達に使用できる四足歩行の車輪付きロボットを披露した。

2025年までに機械学習市場は967億ドルに達する

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

プリンストン・インフィニゲン・マトリックスが始動！ AI Creatorが爆発するほどリアルな100%自然を創造

人工知能はこれからどのように発展していくのでしょうか？

Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

mPLUG-Damo アカデミーオープンソースマルチモーダル対話モデル技術とアプリケーション分析

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。