Text2Image: NLP への新しいアプローチ

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えられてきました。この記事では、NLP とコンピューター ビジョン処理を組み合わせて画像にテキストを描画する新しい NLP 処理方法を見つけました。現状の精度は最適化と改善が必要ですが、大きな応用の見込みがあるようです。

問題

自然言語処理 (NLP) は、少なくともコンピューター ビジョンと比較すると、解決が難しい問題であると長い間考えられてきました。 NLP モデルは実行に時間がかかり、一般的に実装が難しく、より多くのコンピューティング リソースを必要とします。一方、画像認識モデルの実装はよりシンプルになり、GPU への負担も軽減されます。これをきっかけに、テキスト コーパスを画像に変換できるだろうか、テキストを画像として解釈できるだろうか、と考えました。その答えは「はい」で、驚くべき結果が得られました。私たちはこの方法を使って偽のニュースと本物のニュースを区別します。

この記事では、このアプローチ、結果、結論、および今後の改善点について詳しく説明します。

導入

アイデアの源

テキストを画像に変換するというアイデアは、もともと Gleb Esman による不正検出に関するこの記事から着想を得ました。この方法では、マウスの動きの速度、方向、加速度などのさまざまなデータポイントをカラー画像に変換しました。次に、これらの画像に対して画像認識モデルが実行され、非常に正確な結果が生成されます。

データ

すべての実験で使用されるデータは、George McIntire のフェイクニュース データセットのサブセットです。約 1000 件のフェイクニュースと実際のニュース記事が含まれています: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip

Text2Imageの基本原則

まず、Text2Image について概要を説明しましょう。基本的な考え方は、テキストをプロットできるヒートマップに変換することです。ヒートマップには各単語の TF-IDF 値が表示されます。用語頻度 - 逆文書頻度 (TF-IDF) は、文書内の他の単語に対する単語の重要度を判断するために使用される統計手法です。基本的な前処理と TF-IDF 値の計算の後、平滑化ガウス フィルタリングを使用して、それらを対数スケールのヒートマップにプロットします。ヒートマップが描画されたら、fast.ai を使用して CNN を実装し、本物のヒートマップと偽のヒートマップを区別しようとしました。最終的に、約 71% の安定した精度が得られました。これは、この新しいアプローチにとって素晴らしいスタートです。以下は私たちのアプローチの簡単なフローチャートです。

まだ分​​からないですか?以下を読み続けてください。

テキスト2画像の詳細

前処理

データは小文字になり、すべての特殊文字が削除され、テキストとヘッダーが連結されます。文書内のテキストの85%以上も削除されました。また、単語リスト(ストップワード)の使用は明示的に避けてください。ストップワードの標準的なリストが使用されましたが、そのほとんどは情報量の少ない繰り返し単語でした。特に、フェイクニュースの句読点は修正する必要があり、これはフェイクニュースに独特の文体をもたらすために、将来的に検討する価値のある分野です。

TF-IDFの計算

Text2Image は、キーワードをスコアリングして抽出するために、tf-idf の scikit-learn 実装を使用します。 IDF はフェイクニュース コーパスとリアルニュース コーパスごとに別々に計算されます。個別の IDF スコアを計算すると、コーパス全体に対して単一の IDF スコアを計算する場合と比較して、精度が大幅に向上します。次に、各ドキュメントの tf-idf スコアを繰り返し計算します。ここでは、タイトルとテキストは別々にスコア付けされるのではなく、一緒にスコア付けされます。

用語の出現頻度を計算する

IDFの計算

これらを掛け合わせると tf-idf が得られます。各ドキュメントを個別に反復処理します。

TF-IDF値の処理

各文書について、TF-IDF値が最も高い121語が抽出されます。これらの単語は 11x11 配列を作成するために使用されます。ここで、選択された単語の数はハイパーパラメータのように機能します。短くてシンプルなテキストの場合は、より少ない単語を使用できますが、長くて複雑なテキストの場合は、より多くの単語を使用できます。経験則として、このデータセットの理想的なサイズは 11x11 です。 TF-IDF 値をテキスト内の位置でマッピングするのではなく、サイズの降順で並べ替えます。 TF-IDF 値がこのようにマッピングされるのは、テキストをよりよく表し、モデルのトレーニングに豊富な機能を提供するためです。単語は文章中に複数回出現する可能性があるため、単語の最初の出現が考慮されます。

TF-IDFの値をそのままプロットするのではなく、すべての値を対数スケールでプロットします。これは、上限値と下限値の間の大きな差を減らすために行われます。

プロットすると、ほとんどのヒートマップではこの違いによる色の変化は表示されません。したがって、違いをわかりやすくするために対数スケールでプロットされます。

図1(左)はTF-IDF値をそのままプロットしたものです。図2(右)は、同じ値を対数スケールでプロットしたものを示しています。

欠点の 1 つは、モデルをトレーニングするときに過剰適合が多くなることです。これはデータ拡張が欠如していることに起因する可能性があり、現時点ではこのユースケースに使用できるデータ拡張方法は存在しないようです。したがって、これらのプロットを滑らかにするために、データセット全体にガウス フィルタリングが使用されます。精度は少し低下しますが、特にトレーニングの初期段階では、過剰適合が大幅に減少します。

最終ヒートマップ

最終的なヒートマップのサイズは 11x11 で、seaborn を使用して描画されます。 x 軸、y 軸、カラー バーはトレーニング中に何の情報も伝達しないため、削除しました。使用されたヒートマップの種類は、理想的な色の変化を示す「プラズマ」でした。さまざまな色の組み合わせを試してみることは、今後の検討課題となる可能性があります。以下は最終的なプロットの例です。

ヒートマップの最終形態

モデルのトレーニング

モデルは fast.ai を使用して resnet34 でトレーニングされました。 489件のフェイクニュースと511件の本物のニュースが特定されました。データ拡張なしで、トレーニング セットとテスト セットの間で標準の 80:20 分割が使用されました。使用されたすべてのコードは、こちらでご覧いただけます: https://github.com/cabhijith/Text2Image/blob/master/Code.html

結果

要約する

9 回の反復を経て、モデルの精度は 70% を超えました。このデータセットにとってはまだ先進的とは言えませんが、新しいアプローチは有望であると思われます。トレーニング プロセス中に観察されたいくつかの点は次のとおりです。

このモデルは大きく外れています。データを追加しても過剰適合には影響がなく、これは予想に反しています。さらなるトレーニングや学習率の変更は効果がありません。

プロット サイズを大きくすると、サイズが 11x11 になるまでは精度が向上しますが、それを超えるとプロット サイズを大きくすると精度が低下します。

グラフにある程度ガウス フィルタリングを使用すると、精度が向上します。

次のステップ

現在、品詞タグ付けとGloVe単語埋め込みの視覚化に取り組んでいます。また、ストップワードの変更、プロットのサイズと配色の変更も検討しています。これからも改善を続けていきます!

<<:  売上高2,684億元の背後にあるアリババのAI技術の全貌

>>:  AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ    
ブログ    

推薦する

HanSight 万小川: 国内のセキュリティベンダーはセキュリティ人工知能を推進すべき

[51CTO.com より引用] RSA カンファレンスは、世界の IT セキュリティ動向のバロメー...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

サスペンスやSF作品では、ぼやけた写真がコンピューターの画面に表示され、捜査官が画像を強調するように...

自動運転マシンビジョンの4つの基本タスクを理解するための1万語

ディープラーニングは、機械学習の中で最も急速に成長し、最もエキサイティングな分野の 1 つになりまし...

IDC、2021年以降のITトレンドトップ10を発表

2020年に世界的に発生したCOVID-19パンデミックによる混乱にもかかわらず、ほとんどの製品やサ...

...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

将来、人工知能ロボットに置き換えられる可能性のある10の仕事

専門家は、将来的には職業の約 70% が自動化されると予測しています。運転手、教師、ベビーシッター、...

AI Coreの「正体」を1つの記事で理解する

[[251095]] 2018年の初めから年末にかけて、携帯電話業界では人工知能がキーワードとなって...

Apple Carに関する8つの技術的推測

著名な情報機関IHS Markitは最近、Appleの自動車プロジェクトに関する簡潔かつ説得力のある...

AI技術は製薬業界の発展をどのように促進するのでしょうか?

[[315538]]米国では無人タクシーの試験と導入が進み、SFで描かれた無人運転のシナリオが徐々...

WAVE SUMMIT での Baidu Wang Haifeng: ディープラーニングが人工知能を産業大量生産に導入

「ディープラーニングは人工知能を大規模な工業生産の段階に押し上げています。ディープラーニングのフレー...

...

GenAIの変革力は職場に知識をもたらします

GenAI は破壊的な力を持っていますが、どの程度破壊的なのでしょうか? 「大きなものになる」ことは...

スタンフォード大学の10のグラフはAI開発の新たなトレンドを分析している

スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...