たくさんのレポートを読まなければならないときに、それぞれのレポートを簡単に要約したいという状況に遭遇したことはありませんか? 要約は、21 世紀のデータ問題を解決するのに非常に役立つアプローチになりました。この記事では、Python で自然言語処理 (NLP) を使用して個人用テキスト サマライザーを作成する方法を説明します。 序文: 個人用テキスト要約ツールの作成は難しくありません。初心者でも作成できます。 テキスト要約とは何か 基本的には、全体の意味を失うことなく重要な情報を維持しながら正確な要約を作成する作業です。 要約には一般的に 2 つの種類があります。
どの要約方法を使用すべきでしょうか? 抽出要約を使用するのは、大規模な機械学習モデルをトレーニングするという(困難な)作業を行わなくても、この方法を多くのドキュメントに適用できるためです。 さらに、抽出要約は抽象要約よりも要約効果が優れています。これは、抽象要約では元のテキストから新しい文を生成する必要があり、重要な文を抽出するデータ駆動型方法よりも難しい方法だからです。 独自のテキスト要約ツールを作成する方法 ヒストグラムという単語を使用して文の重要度をランク付けし、要約を作成します。これの利点は、ドキュメントで使用するためにモデルをトレーニングする必要がないことです。 テキスト要約ワークフロー 私たちが従うワークフローは次のとおりです… テキストをインポート >>>> テキストをクリーンアップして文に分割 >> ストップワードを削除 >> 単語ヒストグラムを作成 >> 文をランク付け >> 抽出要約用に上位 N 文を選択 (1)サンプルテキスト 私は、「Apple がアプリケーション開発のため AI スタートアップを 5,000 万ドルで買収」という見出しのニュース記事のテキストを使用しました。元のニュース記事は、こちらでご覧いただけます: https://analyticsindiamag.com/apple-acquires-ai-startup-for-50-million-to-advance-its-apps/ テキストファイルは Github からダウンロードすることもできます: https://github.com/louisteo9/personal-text-summarizer (2)インポートライブラリ
(3)テキストをインポートして前処理を行う それを実行する方法はたくさんあります。ここでの目標は、モデルに取り込むことができるクリーンなテキストを作成することです。
ここでは、正規表現を使用してテキストの前処理を実行します。私達はします (A)参照番号をスペース(ある場合)に置き換えます。例:[1]、[10]、[20]、 (B) 1 つ以上のスペースを 1 つのスペースに置き換えます。
次に、小文字(特殊文字、数字、余分なスペースなし)でクリーンなテキストを作成し、フレーズスコアの計算と単語形成ヒストグラムのために個々の単語に分割します。 きれいなテキストになるのは、アルゴリズムが「理解」と「理解」を 2 つの異なる単語として扱わないからです。
(4)テキストを文に分割する テキストを文に分割するには、NLTK sent_tokenize メソッドを使用します。各文の重要性を評価し、各文を要約に含めるかどうかを決定します。
(5)ストップワードを削除する ストップワードは、文にあまり意味を加えない英語の単語です。これらは文の意味を損なうことなく無視しても問題ありません。英語のストップワードを含むファイルをダウンロードしました ここでは、ストップワードのリストを取得し、stop_word 変数に保存します。
(6)ヒストグラムの作成 テキスト全体に何回出現するかに基づいて、各単語の重要性を評価しましょう。 これを実行するには、(1)単語をクリーンなテキストに分割し、(2)ストップワードを削除し、(3)テキスト内の各単語の頻度を確認します。
単語のヒストグラムをプロットして結果を見てみましょう。
これを棒グラフに変換し、以下のヘルパー関数を使用して最初の 20 語のみを表示してみましょう。
最初の20語を表示してみましょう。
上記の画像から、「ai」と「apple」という文字が上部に表示されていることがわかります。この記事はAppleがAIスタートアップを買収したことに関するものなので、これは納得できます。 (7)スコアに応じて文章を並べる ここで、スコアに基づいて各文の重要度をランク付けします。私達はします:
スコアの高い文章が最初にランク付けされます。前の文が私たちの要約となります。 注: 私の経験では、25 〜 30 語程度であれば良い要約になります。
sentence-score 辞書をデータ フレームに変換し、sentence_score を表示します。 注: 辞書では、スコアに基づいて文章を並べ替えることはできないため、辞書に保存されているデータを DataFrame に変換する必要があります。
(8)前の文を要約として選択する ヒープ キュー アルゴリズムを使用して上位 3 つの文を選択し、best_quences 変数に保存します。 通常、3〜5 文で十分です。ドキュメントの長さに応じて、表示する上位の文の数を自由に変更できます。 この場合、テキストが比較的短いため、3 を選択しました。
print および for ループ関数を使用して概要テキストを表示してみましょう。
こちらは、Jupyter ノートブックの Github へのリンクです。テキストを要約するためにすぐに使用できる実行可能な Python ファイルも見つかります: https://github.com/louisteo9/personal-text-summarizer アルゴリズムの動作を見てみましょう。 以下は「Appleがアプリの進化に向けAIスタートアップを5000万ドルで買収」というニュース記事の原文です。 AppleはAIポートフォリオの拡大を目指し、スペインに拠点を置くAIビデオスタートアップ企業Vilynxを約5,000万ドルで買収した。 ブルームバーグの報道によると、AIスタートアップのVilynxはバルセロナに本社を置き、コンピュータービジョンを使用してビデオの映像、テキスト、音声コンテンツを分析して、ビデオの内容を理解するソフトウェアを開発していることで知られている。同社のウェブサイトによると、これにより、ビデオの分類とメタデータのタグ付け、自動ビデオプレビューの生成、ユーザーへの関連コンテンツの推奨が可能になるという。 Apple はメディアに対し、同社は通常、小規模なテクノロジー企業を随時買収しており、今回の買収により、Vilynx のテクノロジーをさまざまなアプリの改善に活用できる可能性があると語った。メディアによると、Siri、検索、写真など Apple に依存しているアプリが候補の可能性があるほか、Apple TV、音楽、ニュースなど、Vilynx のテクノロジーで革命が起ころうとしているアプリもいくつかあるという。 CEOのティム・クック氏が拡張現実の可能性について抱いているビジョンを踏まえると、同社はVilynxのようなAIベースのツールも活用できるだろう。 ニュースによると、この買収によりAppleのAI専門知識も向上し、Vilynxから最大50人のエンジニアとデータサイエンティストが加わり、このスタートアップはAppleのヨーロッパにおける主要なAI研究拠点の1つになるという。 Appleは過去数ヶ月間に人工知能の分野で大きな進歩を遂げており、昨年12月には英国拠点のSpectral Edge、シアトル拠点のXnor.aiを2億ドルで買収、Siriの改良のためにVoysisとInductivを買収した。小規模な企業をひっそりと買収する習慣を持つAppleは、AI分野で足跡を残している。2018年、CEOのティム・クックはインタビューで、同社が6ヶ月間で20社を買収したが、そのうち公に知られているのは6社だけだったと語った。 要約すると次のようになります。
結論 おめでとうございます! Python で個人用のテキスト サマライザーを作成しました。要約がうまくいったといいのですが。 |
>>: コード生成のためのツリーベースのTransformerアーキテクチャ
たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました! 9月20日、上海人工知...
スペイン紙エル・ムンドのウェブサイトが2月20日に報じたところによると、ソフトウェア、ハードウェア、...
[[205745]] MLlib は、機械学習のエンジニアリング実践を簡素化し、大規模への拡張を容...
今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気とな...
7月4日に開催された百度AI開発者会議(Baidu Create 2018)で、百度上級副社長兼AI...
この学習ロードマップは、人工知能分野のほぼすべてのコンテンツを網羅しています。マウスをクリックするだ...
短波赤外線ベースのエレクトロルミネッセンスイメージングは、太陽光発電パネルの欠陥検出に有望です。...
ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...
テクノロジーは既存の人間文化の延長です。テクノロジーは人類の知恵を広げた一方で、人々の偏見や差別も受...
素晴らしいニュースです! Microsoft が Excel に Python を導入しました。 E...
[[114872]]進化人類学者の間では、子犬などのペットが野生動物から進化したのは、社会的な知性を...
今日のドローンは、ビデオ録画だけでなく、害虫や病気の問題を防ぐための農業での使用など、幅広い用途に使...