Text2Image: NLP への新しいアプローチ

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えられてきました。この記事では、NLP とコンピューター ビジョン処理を組み合わせて画像にテキストを描画する新しい NLP 処理方法を見つけました。現状の精度は最適化と改善が必要ですが、大きな応用の見込みがあるようです。

問題

自然言語処理 (NLP) は、少なくともコンピューター ビジョンと比較すると、解決が難しい問題であると長い間考えられてきました。 NLP モデルは実行に時間がかかり、一般的に実装が難しく、より多くのコンピューティング リソースを必要とします。一方、画像認識モデルの実装はよりシンプルになり、GPU への負担も軽減されます。これをきっかけに、テキスト コーパスを画像に変換できるだろうか、テキストを画像として解釈できるだろうか、と考えました。その答えは「はい」で、驚くべき結果が得られました。私たちはこの方法を使って偽のニュースと本物のニュースを区別します。

この記事では、このアプローチ、結果、結論、および今後の改善点について詳しく説明します。

導入

アイデアの源

テキストを画像に変換するというアイデアは、もともと Gleb Esman による不正検出に関するこの記事から着想を得ました。この方法では、マウスの動きの速度、方向、加速度などのさまざまなデータポイントをカラー画像に変換しました。次に、これらの画像に対して画像認識モデルが実行され、非常に正確な結果が生成されます。

データ

すべての実験で使用されるデータは、George McIntire のフェイクニュース データセットのサブセットです。約 1000 件のフェイクニュースと実際のニュース記事が含まれています: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip

Text2Imageの基本原則

まず、Text2Image について概要を説明しましょう。基本的な考え方は、テキストをプロットできるヒートマップに変換することです。ヒートマップには各単語の TF-IDF 値が表示されます。用語頻度 - 逆文書頻度 (TF-IDF) は、文書内の他の単語に対する単語の重要度を判断するために使用される統計手法です。基本的な前処理と TF-IDF 値の計算の後、平滑化ガウス フィルタリングを使用して、それらを対数スケールのヒートマップにプロットします。ヒートマップが描画されたら、fast.ai を使用して CNN を実装し、本物のヒートマップと偽のヒートマップを区別しようとしました。最終的に、約 71% の安定した精度が得られました。これは、この新しいアプローチにとって素晴らしいスタートです。以下は私たちのアプローチの簡単なフローチャートです。

まだ分​​からないですか?以下を読み続けてください。

テキスト2画像の詳細

前処理

データは小文字になり、すべての特殊文字が削除され、テキストとヘッダーが連結されます。文書内のテキストの85%以上も削除されました。また、単語リスト(ストップワード)の使用は明示的に避けてください。ストップワードの標準的なリストが使用されましたが、そのほとんどは情報量の少ない繰り返し単語でした。特に、フェイクニュースの句読点は修正する必要があり、これはフェイクニュースに独特の文体をもたらすために、将来的に検討する価値のある分野です。

TF-IDFの計算

Text2Image は、キーワードをスコアリングして抽出するために、tf-idf の scikit-learn 実装を使用します。 IDF はフェイクニュース コーパスとリアルニュース コーパスごとに別々に計算されます。個別の IDF スコアを計算すると、コーパス全体に対して単一の IDF スコアを計算する場合と比較して、精度が大幅に向上します。次に、各ドキュメントの tf-idf スコアを繰り返し計算します。ここでは、タイトルとテキストは別々にスコア付けされるのではなく、一緒にスコア付けされます。

用語の出現頻度を計算する

IDFの計算

これらを掛け合わせると tf-idf が得られます。各ドキュメントを個別に反復処理します。

TF-IDF値の処理

各文書について、TF-IDF値が最も高い121語が抽出されます。これらの単語は 11x11 配列を作成するために使用されます。ここで、選択された単語の数はハイパーパラメータのように機能します。短くてシンプルなテキストの場合は、より少ない単語を使用できますが、長くて複雑なテキストの場合は、より多くの単語を使用できます。経験則として、このデータセットの理想的なサイズは 11x11 です。 TF-IDF 値をテキスト内の位置でマッピングするのではなく、サイズの降順で並べ替えます。 TF-IDF 値がこのようにマッピングされるのは、テキストをよりよく表し、モデルのトレーニングに豊富な機能を提供するためです。単語は文章中に複数回出現する可能性があるため、単語の最初の出現が考慮されます。

TF-IDFの値をそのままプロットするのではなく、すべての値を対数スケールでプロットします。これは、上限値と下限値の間の大きな差を減らすために行われます。

プロットすると、ほとんどのヒートマップではこの違いによる色の変化は表示されません。したがって、違いをわかりやすくするために対数スケールでプロットされます。

図1(左)はTF-IDF値をそのままプロットしたものです。図2(右)は、同じ値を対数スケールでプロットしたものを示しています。

欠点の 1 つは、モデルをトレーニングするときに過剰適合が多くなることです。これはデータ拡張が欠如していることに起因する可能性があり、現時点ではこのユースケースに使用できるデータ拡張方法は存在しないようです。したがって、これらのプロットを滑らかにするために、データセット全体にガウス フィルタリングが使用されます。精度は少し低下しますが、特にトレーニングの初期段階では、過剰適合が大幅に減少します。

最終ヒートマップ

最終的なヒートマップのサイズは 11x11 で、seaborn を使用して描画されます。 x 軸、y 軸、カラー バーはトレーニング中に何の情報も伝達しないため、削除しました。使用されたヒートマップの種類は、理想的な色の変化を示す「プラズマ」でした。さまざまな色の組み合わせを試してみることは、今後の検討課題となる可能性があります。以下は最終的なプロットの例です。

ヒートマップの最終形態

モデルのトレーニング

モデルは fast.ai を使用して resnet34 でトレーニングされました。 489件のフェイクニュースと511件の本物のニュースが特定されました。データ拡張なしで、トレーニング セットとテスト セットの間で標準の 80:20 分割が使用されました。使用されたすべてのコードは、こちらでご覧いただけます: https://github.com/cabhijith/Text2Image/blob/master/Code.html

結果

要約する

9 回の反復を経て、モデルの精度は 70% を超えました。このデータセットにとってはまだ先進的とは言えませんが、新しいアプローチは有望であると思われます。トレーニング プロセス中に観察されたいくつかの点は次のとおりです。

このモデルは大きく外れています。データを追加しても過剰適合には影響がなく、これは予想に反しています。さらなるトレーニングや学習率の変更は効果がありません。

プロット サイズを大きくすると、サイズが 11x11 になるまでは精度が向上しますが、それを超えるとプロット サイズを大きくすると精度が低下します。

グラフにある程度ガウス フィルタリングを使用すると、精度が向上します。

次のステップ

現在、品詞タグ付けとGloVe単語埋め込みの視覚化に取り組んでいます。また、ストップワードの変更、プロットのサイズと配色の変更も検討しています。これからも改善を続けていきます!

<<:  売上高2,684億元の背後にあるアリババのAI技術の全貌

>>:  AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ    

推薦する

Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

中国・北京(2019年11月21日) – 世界的に有名な知能ロボット企業であるG​​eek+は、今年...

「ビッグアイクリップ」が生まれ変わり、ChatGPTチャットボットに変身

6 月 29 日のニュースによると、かつては物議を醸し、今では懐かしく思われている Microsof...

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

[[418306]]今月初め、アップルはエコシステム全体に新たな子どもの安全機能を導入すると発表し...

オープンソースのAIがディープラーニングを使用して、顔の表情の特徴に基づいて画像のキャプションを生成

オープンソースの AI ディープラーニングを適用して、顔の表情の特徴に基づいて画像のキャプションを生...

人工知能が絵画の質感から画家を識別する

2D 画像から画像を認識することは目新しいことではありません。Google や Baidu を開いて...

...

アルゴリズム学習のための動的プログラミング戦略の紹介

1. コンセプト動的プログラミング戦略、分割統治戦略。貪欲戦略と同様に、通常は最適解問題を解決するた...

機械学習のコンテナ化: TensorFlow、Kubernetes、Kubeflow

[[253678]] [51CTO.com クイック翻訳] 機械学習 (ML) は、パターンを識別...

IBM、スタートアップを支援するために5億ドルのエンタープライズAIベンチャーファンドを設立

IBMは最近、新たな企業投資ツールであるEnterprise AI Venture Fundを立ち上...

ディープラーニングは他の画像処理アルゴリズムを置き換えることができますか?

近年、ディープラーニング技術の登場により、視覚画像処理はますます普及し、さまざまな分野で広く利用され...

AIが新たな成長エンジンに。アマゾン ウェブ サービスの技術的手法に耳を傾けてみよう

AI は数年前にテクノロジーの世界で人気を博しましたが、今では何千もの業界で革新と徹底的な応用が行わ...

低品質の AIGC コンテンツがインターネット エコシステムに溢れかえれば、エコシステムは破壊されてしまいます。

少し前、ChatGPT は突然人気を博し、ユーザーベースが急速に増加しました。多くの人が「生成 AI...

タッチから音声へ: 音声テクノロジーが IoT 環境をどう変えるか

猛威を振るう新型コロナウイルス感染症のパンデミックは、経済と社会に大きな打撃を与えている。この世界的...

金融規制当局が注意喚起:「AIによる顔の改変」などの新たな詐欺手法に注意

10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...