PDF テーブルを抽出するニューラル ネットワーク ツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

PDF テーブルを抽出するニューラル ネットワーク ツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

[[335375]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

いとこたちは、PDF ファイル内の表の数が多いことにまだ悩んでいますか?

Baidu で検索すると、インターネット上に PDF テーブルを抽出するツールが多数あることがわかりますが、それらはテキスト形式の PDF のみをサポートしています。

しかし、スキャンによって生成された画像テーブルはどうでしょうか?

心配しないでください。ディープ ニューラル ネットワークを使用してテーブルを認識して抽出するオープン ソース ツールが役立ちます。

画像と互換性があり、精度が高く、ローカルのコンピューティング リソースを占有しないため、このような実用的なツールは持つ価値があります。

テスト例

入力 PDF ファイルで表が検出されると、モデルは境界ボックス内に表の境界をマークします。

表形式のデータは、簡単に処理できるように Panda データ フレームに変換されます。

どうですか、実用的じゃないですか?それで、このツールはどのように使用するのでしょうか?

姿勢の詳しい説明

ニューラル ネットワーク アルゴリズムはローカル コンピューティング リソースを占有しませんか?

はい、お聞きの通り、このツールのすべてのコードは Google Colab で実行できます。つまり、ローカルにインストールしなくても、Colab クラウド リソースを使用してトレーニングと推論を完了できます。

このツールで使用されるディープ ニューラル ネットワークは Keras-RetinaNet です。まず、Colab に Keras-RetinaNet をインストールする必要があります。これは次のコード行で実行できます。

  1. git クローンhttps://github.com/fizyr/keras-retinanet

同時に、必要なライブラリをインストールする必要があります。

  1. pip install .python setup.py build_ext — インプレース

Keras-RetinaNet をトレーニングしてテーブルを認識する

まず、トレーニング データベースを構築する必要があります。

ここでは、アルゴリズム学習のために、Colab ツールPDF2Imgを使用して PDF ファイルを JPG 形式に変換する必要があります。

次に、変換した画像を Images フォルダに保存します。次に、これらのトレーニング データに手動でラベルを付ける必要があります。ここでは、オンライン ラベリング ツール makesense.ai を使用することをお勧めします。

XML 注釈ファイルを注釈フォルダーに保存し、トレーニング用とテスト用の PDF ファイルのリストを作成し、そのリストを train.txt と test.txt にインポートします。

次に、Github プロジェクト https://github.com/ferrygun/PDFTableExtract をクローンし、beautifulsoup をインストールします。

次のコマンドを実行して、PASCAL VOC 形式を Keras-RetinaNet に必要な形式に変換します。

  1. Python ビルド_logos.py

上記のコマンドを実行すると、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv が取得されます。

retinanet_classes.csv では、PDF ドキュメント内のテーブルのみが認識されるため、クラスは 1 つ (クラス 0) のみです。

タグ付けプロセス中にヘッダー、フッター、その他のタグを追加すると、それに応じて複数のクラスが取得されます。

ファイルとフォルダ構造の完全なリスト:

次に、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv、train.txt、test.txt を keras-retinanet のルート フォルダーにインポートします。

次に、Colab TrainOCR を実行します。トレーニングする JPG ファイルの数に応じて、トレーニング エポックの数を調整できます。

トレーニングが完了すると、重みファイル output.h5 が取得されます。このファイルをダウンロードしてローカル ホストに保存します。このファイルは後でテストを実行するために使用されます。

ここで注目すべき点は、Colab ではファイルが Git にアップロードされ、Git によってクローンされていることです。

テストの実行

テストを実行する前に、PDF ファイルの処理に必要なライブラリもインストールする必要があります。

PyPDF2 は、ドキュメント情報を抽出したり、ページを切り取ったりできる Python ツール ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

  1. PyPDF2 を pip でインストールします

Camelot は、PDF ページ テーブルを解析するための Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

  1. pip インストール camelot-py[cv]

PDF2IMG は、PDF を PIL Image オブジェクトに変換する Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

  1. pip で pdf2imag をインストールします

予測を実行する前に、トレーニングから取得した重みファイル output.h5 を使用してモデルをロードし、retinanet_classes.csv からラベル クラス 0 を定義する必要があります。

  1. model_path = 'output.h5'model = models.load_model(model_path, backbone_name='resnet50')labels = 'retinanet_classes.csv'LABELS = open(labels).read().strip().split('\n')LABELS = { int (L.split(',')[ 1 ]): L.split(',')[ 0 ] for L in LABELS}print(LABELS){ 0 : 'tabel'}

次にテストを実行します

  1. import numpy as npimport cv2import matplotlib.pyplot as pltimage_path = imgfname#image = cv2.imread(image_path)image = read_image_bgr(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)print(output.shape) # 行 (高さ) x 列 (幅) x 色 ( 3 )image = preprocess_image(image)(image, scale) = resize_image(image)image = np.expand_dims(image, axis= 0 )# 入力画像内のオブジェクトを検出し、画像修正する scale(boxes, scores, labels) = model.predict_on_batch(image)boxes /= scaleconfidence = 0 .2from google.colab.patches import cv2_imshowimport label_out = []result = "" # 検出結果をループfor (box, score, label) in zip(boxes[ 0 ], scores[ 0 ], labels[ 0 ]): # 弱い検出結果を除外if score < 信頼度: continue # 境界ボックスの座標を浮動小数点数から整数に変換box = box.astype( "int" ) # ラベルを作成し、出力画像にラベル + 境界ボックスを描画labeli = label label = "{}: {:.2f}" .format(LABELS[label], score) print(label) if LABELS[labeli] not in label_out: label_out.append(LABELS[labeli]) cv2.rectangle(output, (box[ 0 ], box[ 1 ]), (box[ 2 ], box[ 3 ]), ( 255 , 0 , 0 ), 12 ) print(box[ 0 ] ]) print(box[ 1 ]) print(box[ 2 ]) print(box[ 3 ]) #結果cv2.putText(出力、ラベル、(box[ 0 ]、box[ 1 ] - 10 )、cv2.FONT_HERSHEY_SIMPLEX、 4.5 、( 2551、1 )、 12 )plt.figure(figsize=( 2020 ))plt.imshow(出力)plt.show()

テーブルが検出されると、モデルは境界ボックス内にテーブルの境界をマークします。

境界ボックスの座標 (x1、y1、x2、y2)、table_area は Camelot read_pdf 関数に入力され、table_area は正規化された境界ボックスです。

  1. interesting_areas=[]output = [[x1, y1, x2, y2]] for x in output: [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x) bbox_camelot = [ "," .join([str(x1), str(y1), str(x2), str(y2)]) ][ 0 ] # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space #print(bbox_camelot) interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf( filepath=pdf_file, pages=str(pg), flavor= "stream" , table_areas=interesting_areas)output_camelot[ 0 ].df
  2. このようにして、表形式のデータを Panda データ フレームに変換し、後続の処理に使用できます。

写真をどうするか

スキャンされた画像形式の PDF フォームの場合、 Ocrmypdf パッケージを使用して、画像形式の PDF をテキスト形式に変換できます。

Ocrmypdf は、画像ベースの PDF をテキストベースの PDF に変換する Python パッケージです。

次のコマンド ラインを使用して、macOS および Linux で利用可能な ocrmypdf をインストールします。

  1. ocrmypdf をインストール

次のコマンドによって呼び出されます:

  1. ocrmypdf 入力ファイル.pdf 出力ファイル.pdf

その後は上記の方法でテーブルを抽出できます。

画像に対応し、Google GPU を無料で使用できるこの PDF スプレッドシート ツールはいかがでしょうか? 役に立ちますか?

ポータル

プロジェクトアドレス:
https://github.com/ferrygun/PDFTableExtract

オンラインラベリングツール:
https://www.makesense.ai/

<<:  「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

>>:  エンジニアの職が危機に:ボストン・ダイナミクスのロボット犬がフォードにエンジニアとして入社!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能が幼稚園のキャンパスに参入し、あらゆる面でキャンパスの安全を確保

近年、幼児教育のスマート化を導き、子どもたちの学習と成長をサポートするスマート幼稚園環境を総合的に構...

自然言語処理(NLP)の歴史と方向性

自然言語処理の歴史は紆余曲折に満ちた物語です。それは無駄な研究から始まり、何年にもわたる実りある研究...

AIを活用してパイロットプロジェクトを計画する方法

人工知能 (AI) は、あらゆる業界の企業にビジネス運営の成長と改善の機会を提供します。 Fortu...

...

AIと子ども経済が出会うとき、どうすれば中心的ポジションにデビューできるのか?

[[248753]]児童市場は非常に特殊で、この層は購買力がないにもかかわらず、消費市場の価値は数...

あなたの顔を「動かした」のは誰?顔認識技術の背後にあるプライバシー保護

[[392874]] 4月9日午後、中国初の顔認識訴訟が杭州中級人民法院で最終判決を受けた。被告杭州...

ボストン ダイナミクスが CES で楽しいひとときを過ごし、ロボット犬の Spot がメタバースに登場します。

CES 2022 で、ボストン ダイナミクスは Spot ロボット犬をメタバースに導入しました。こ...

認知知能を業界の奥深くまで導くWAIC Baiduが言語と知識技術の完全なレイアウトを公開

言語は機械と人間をつなぐ重要な経路であり、機械が現実世界を深く理解するためには知識が必要です。 8月...

...

大規模機械学習フレームワークの4つのレベル

[[208759]] 1. 背景Google が GFS、MapReduce、BigTable に関...

...

...

AIビデオ生成が新たな高みに到達:高解像度の映画品質、無料で無制限に再生可能、「史上最強」として知られる

いわゆる「史上最強の動画生成AI」が誕生した。効果は本当に良いです:たった 1 つのプロンプト ワー...

...

顔認識を禁止した後、サンフランシスコは検察官の事件処理を支援するためにAIを活用

最近、海外メディアの報道によると、サンフランシスコ市は7月1日に導入予定の「偏見削減ツール」を発表し...