Text2Image: NLP への新しいアプローチ

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えられてきました。この記事では、NLP とコンピューター ビジョン処理を組み合わせて画像にテキストを描画する新しい NLP 処理方法を見つけました。現状の精度は最適化と改善が必要ですが、大きな応用の見込みがあるようです。

問題

自然言語処理 (NLP) は、少なくともコンピューター ビジョンと比較すると、解決が難しい問題であると長い間考えられてきました。 NLP モデルは実行に時間がかかり、一般的に実装が難しく、より多くのコンピューティング リソースを必要とします。一方、画像認識モデルの実装はよりシンプルになり、GPU への負担も軽減されます。これをきっかけに、テキスト コーパスを画像に変換できるだろうか、テキストを画像として解釈できるだろうか、と考えました。その答えは「はい」で、驚くべき結果が得られました。私たちはこの方法を使って偽のニュースと本物のニュースを区別します。

この記事では、このアプローチ、結果、結論、および今後の改善点について詳しく説明します。

導入

アイデアの源

テキストを画像に変換するというアイデアは、もともと Gleb Esman による不正検出に関するこの記事から着想を得ました。この方法では、マウスの動きの速度、方向、加速度などのさまざまなデータポイントをカラー画像に変換しました。次に、これらの画像に対して画像認識モデルが実行され、非常に正確な結果が生成されます。

データ

すべての実験で使用されるデータは、George McIntire のフェイクニュース データセットのサブセットです。約 1000 件のフェイクニュースと実際のニュース記事が含まれています: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip

Text2Imageの基本原則

まず、Text2Image について概要を説明しましょう。基本的な考え方は、テキストをプロットできるヒートマップに変換することです。ヒートマップには各単語の TF-IDF 値が表示されます。用語頻度 - 逆文書頻度 (TF-IDF) は、文書内の他の単語に対する単語の重要度を判断するために使用される統計手法です。基本的な前処理と TF-IDF 値の計算の後、平滑化ガウス フィルタリングを使用して、それらを対数スケールのヒートマップにプロットします。ヒートマップが描画されたら、fast.ai を使用して CNN を実装し、本物のヒートマップと偽のヒートマップを区別しようとしました。最終的に、約 71% の安定した精度が得られました。これは、この新しいアプローチにとって素晴らしいスタートです。以下は私たちのアプローチの簡単なフローチャートです。

まだ分​​からないですか?以下を読み続けてください。

テキスト2画像の詳細

前処理

データは小文字になり、すべての特殊文字が削除され、テキストとヘッダーが連結されます。文書内のテキストの85%以上も削除されました。また、単語リスト(ストップワード)の使用は明示的に避けてください。ストップワードの標準的なリストが使用されましたが、そのほとんどは情報量の少ない繰り返し単語でした。特に、フェイクニュースの句読点は修正する必要があり、これはフェイクニュースに独特の文体をもたらすために、将来的に検討する価値のある分野です。

TF-IDFの計算

Text2Image は、キーワードをスコアリングして抽出するために、tf-idf の scikit-learn 実装を使用します。 IDF はフェイクニュース コーパスとリアルニュース コーパスごとに別々に計算されます。個別の IDF スコアを計算すると、コーパス全体に対して単一の IDF スコアを計算する場合と比較して、精度が大幅に向上します。次に、各ドキュメントの tf-idf スコアを繰り返し計算します。ここでは、タイトルとテキストは別々にスコア付けされるのではなく、一緒にスコア付けされます。

用語の出現頻度を計算する

IDFの計算

これらを掛け合わせると tf-idf が得られます。各ドキュメントを個別に反復処理します。

TF-IDF値の処理

各文書について、TF-IDF値が最も高い121語が抽出されます。これらの単語は 11x11 配列を作成するために使用されます。ここで、選択された単語の数はハイパーパラメータのように機能します。短くてシンプルなテキストの場合は、より少ない単語を使用できますが、長くて複雑なテキストの場合は、より多くの単語を使用できます。経験則として、このデータセットの理想的なサイズは 11x11 です。 TF-IDF 値をテキスト内の位置でマッピングするのではなく、サイズの降順で並べ替えます。 TF-IDF 値がこのようにマッピングされるのは、テキストをよりよく表し、モデルのトレーニングに豊富な機能を提供するためです。単語は文章中に複数回出現する可能性があるため、単語の最初の出現が考慮されます。

TF-IDFの値をそのままプロットするのではなく、すべての値を対数スケールでプロットします。これは、上限値と下限値の間の大きな差を減らすために行われます。

プロットすると、ほとんどのヒートマップではこの違いによる色の変化は表示されません。したがって、違いをわかりやすくするために対数スケールでプロットされます。

図1(左)はTF-IDF値をそのままプロットしたものです。図2(右)は、同じ値を対数スケールでプロットしたものを示しています。

欠点の 1 つは、モデルをトレーニングするときに過剰適合が多くなることです。これはデータ拡張が欠如していることに起因する可能性があり、現時点ではこのユースケースに使用できるデータ拡張方法は存在しないようです。したがって、これらのプロットを滑らかにするために、データセット全体にガウス フィルタリングが使用されます。精度は少し低下しますが、特にトレーニングの初期段階では、過剰適合が大幅に減少します。

最終ヒートマップ

最終的なヒートマップのサイズは 11x11 で、seaborn を使用して描画されます。 x 軸、y 軸、カラー バーはトレーニング中に何の情報も伝達しないため、削除しました。使用されたヒートマップの種類は、理想的な色の変化を示す「プラズマ」でした。さまざまな色の組み合わせを試してみることは、今後の検討課題となる可能性があります。以下は最終的なプロットの例です。

ヒートマップの最終形態

モデルのトレーニング

モデルは fast.ai を使用して resnet34 でトレーニングされました。 489件のフェイクニュースと511件の本物のニュースが特定されました。データ拡張なしで、トレーニング セットとテスト セットの間で標準の 80:20 分割が使用されました。使用されたすべてのコードは、こちらでご覧いただけます: https://github.com/cabhijith/Text2Image/blob/master/Code.html

結果

要約する

9 回の反復を経て、モデルの精度は 70% を超えました。このデータセットにとってはまだ先進的とは言えませんが、新しいアプローチは有望であると思われます。トレーニング プロセス中に観察されたいくつかの点は次のとおりです。

このモデルは大きく外れています。データを追加しても過剰適合には影響がなく、これは予想に反しています。さらなるトレーニングや学習率の変更は効果がありません。

プロット サイズを大きくすると、サイズが 11x11 になるまでは精度が向上しますが、それを超えるとプロット サイズを大きくすると精度が低下します。

グラフにある程度ガウス フィルタリングを使用すると、精度が向上します。

次のステップ

現在、品詞タグ付けとGloVe単語埋め込みの視覚化に取り組んでいます。また、ストップワードの変更、プロットのサイズと配色の変更も検討しています。これからも改善を続けていきます!

<<:  売上高2,684億元の背後にあるアリババのAI技術の全貌

>>:  AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ    

推薦する

...

テレンス・タオは数学の問題を解くために大規模なモデルを使用しています。コードの生成とLaTeXの数式の編集は非常に便利です。

過去数か月間、数学者のテレンス・タオ氏は、ChatGPT を使用して数学の問題を解くのに何度も試み、...

小さな機械学習: 次の AI 革命

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

3Dデモを使用してさまざまな最適化アルゴリズムを理解します。これはC++プログラマーにとって朗報です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

馬化騰と李延紅の対談:基礎技術は巨大産業の変革の基盤

11月8日、烏鎮で開催された世界インターネット大会で、馬化騰氏と李ロビン氏が首脳対談を行った。2人の...

2030 年の AI はどのようになっているでしょうか?専門家が10の予測を発表

2020 年も終わりに近づいていますが、AI はさまざまなことに役立っています。車を運転したり、音楽...

AI アバターが CES に登場! Samsung の Neon チャットボットは学習、進化、記憶が可能です!

サムスンの待望のスマートヒューマンプロジェクト「Neon」が、ついにCES 2020でデビューしまし...

より優れた LLM ベースのアプリケーションを構築するための 4 つの秘訣

アドリアン・トゥルイユ翻訳者 | ブガッティ校正 | Chonglou制作:51CTO テクノロジー...

2020年AIの現状調査:25%の企業がAI導入により大幅な収益増加を達成

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

法律分野で初の「1対多」の人間と機械の競争が始まり、AI弁護士が契約書審査で人間を上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルゴリズムやモデルがわかりませんか? UFIDA Jingzhi Industrial Brainは、産業インテリジェンスを簡単に習得する方法を教えます

現在、ビッグデータ、クラウドコンピューティング、人工知能技術が急速に発展しており、産業インターネット...

インターネット技術起業家は、2 つのセッションで提案を行う際にどのような点に重点を置いていますか?

[[258735]] 3月3日、毎年恒例の全国「両会」が正式に始まりました。「両会」シーズンが始ま...

...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...