PDF テーブルを抽出するニューラルネットワークツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

[[335375]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

いとこたちは、PDF ファイル内の表の数が多いことにまだ悩んでいますか?

Baidu で検索すると、インターネット上に PDF テーブルを抽出するツールが多数あることがわかりますが、それらはテキスト形式の PDF のみをサポートしています。

しかし、スキャンによって生成された画像テーブルはどうでしょうか?

心配しないでください。ディープニューラルネットワークを使用してテーブルを認識して抽出するオープンソースツールが役立ちます。

画像と互換性があり、精度が高く、ローカルのコンピューティングリソースを占有しないため、このような実用的なツールは持つ価値があります。

テスト例

入力 PDF ファイルで表が検出されると、モデルは境界ボックス内に表の境界をマークします。

表形式のデータは、簡単に処理できるように Panda データフレームに変換されます。

どうですか、実用的じゃないですか？それで、このツールはどのように使用するのでしょうか?

姿勢の詳しい説明

ニューラルネットワークアルゴリズムはローカルコンピューティングリソースを占有しませんか?

はい、お聞きの通り、このツールのすべてのコードは Google Colab で実行できます。つまり、ローカルにインストールしなくても、Colab クラウドリソースを使用してトレーニングと推論を完了できます。

このツールで使用されるディープニューラルネットワークは Keras-RetinaNet です。まず、Colab に Keras-RetinaNet をインストールする必要があります。これは次のコード行で実行できます。

 git クローンhttps://github.com/fizyr/keras-retinanet

同時に、必要なライブラリをインストールする必要があります。

 pip install .python setup.py build_ext — インプレース

Keras-RetinaNet をトレーニングしてテーブルを認識する

まず、トレーニングデータベースを構築する必要があります。

ここでは、アルゴリズム学習のために、Colab ツールPDF2Imgを使用して PDF ファイルを JPG 形式に変換する必要があります。

次に、変換した画像を Images フォルダに保存します。次に、これらのトレーニングデータに手動でラベルを付ける必要があります。ここでは、オンラインラベリングツール makesense.ai を使用することをお勧めします。

XML 注釈ファイルを注釈フォルダーに保存し、トレーニング用とテスト用の PDF ファイルのリストを作成し、そのリストを train.txt と test.txt にインポートします。

次に、Github プロジェクト https://github.com/ferrygun/PDFTableExtract をクローンし、beautifulsoup をインストールします。

次のコマンドを実行して、PASCAL VOC 形式を Keras-RetinaNet に必要な形式に変換します。

 Python ビルド_logos.py

上記のコマンドを実行すると、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv が取得されます。

retinanet_classes.csv では、PDF ドキュメント内のテーブルのみが認識されるため、クラスは 1 つ (クラス 0) のみです。

タグ付けプロセス中にヘッダー、フッター、その他のタグを追加すると、それに応じて複数のクラスが取得されます。

ファイルとフォルダ構造の完全なリスト:

次に、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv、train.txt、test.txt を keras-retinanet のルートフォルダーにインポートします。

次に、Colab TrainOCR を実行します。トレーニングする JPG ファイルの数に応じて、トレーニングエポックの数を調整できます。

トレーニングが完了すると、重みファイル output.h5 が取得されます。このファイルをダウンロードしてローカルホストに保存します。このファイルは後でテストを実行するために使用されます。

ここで注目すべき点は、Colab ではファイルが Git にアップロードされ、Git によってクローンされていることです。

テストの実行

テストを実行する前に、PDF ファイルの処理に必要なライブラリもインストールする必要があります。

PyPDF2 は、ドキュメント情報を抽出したり、ページを切り取ったりできる Python ツールライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 PyPDF2 を pip でインストールします

Camelot は、PDF ページテーブルを解析するための Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 pip インストール camelot-py[cv]

PDF2IMG は、PDF を PIL Image オブジェクトに変換する Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 pip で pdf2imag をインストールします

予測を実行する前に、トレーニングから取得した重みファイル output.h5 を使用してモデルをロードし、retinanet_classes.csv からラベルクラス 0 を定義する必要があります。

 model_path = 'output.h5'model = models.load_model(model_path, backbone_name='resnet50')labels = 'retinanet_classes.csv'LABELS = open(labels).read().strip().split('\n')LABELS = { int (L.split(',')[ 1 ]): L.split(',')[ 0 ] for L in LABELS}print(LABELS){ 0 : 'tabel'}

次にテストを実行します

import numpy as npimport cv2import matplotlib.pyplot as pltimage_path = imgfname#image = cv2.imread(image_path)image = read_image_bgr(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)print(output.shape) # 行 (高さ) x 列 (幅) x 色 ( 3 )image = preprocess_image(image)(image, scale) = resize_image(image)image = np.expand_dims(image, axis= 0 )# 入力画像内のオブジェクトを検出し、画像を修正する scale(boxes, scores, labels) = model.predict_on_batch(image)boxes /= scaleconfidence = 0 .2from google.colab.patches import cv2_imshowimport label_out = []result = "" # 検出結果をループfor (box, score, label) in zip(boxes[ 0 ], scores[ 0 ], labels[ 0 ]): # 弱い検出結果を除外if score < 信頼度: continue # 境界ボックスの座標を浮動小数点数から整数に変換box = box.astype( "int" ) # ラベルを作成し、出力画像にラベル + 境界ボックスを描画labeli = label label = "{}: {:.2f}" .format(LABELS[label], score) print(label) if LABELS[labeli] not in label_out: label_out.append(LABELS[labeli]) cv2.rectangle(output, (box[ 0 ], box[ 1 ]), (box[ 2 ], box[ 3 ]), ( 255 , 0 , 0 ), 12 ) print(box[ 0 ] ]) print(box[ 1 ]) print(box[ 2 ]) print(box[ 3 ]) #結果cv2.putText(出力、ラベル、(box[ 0 ]、box[ 1 ] - 10 )、cv2.FONT_HERSHEY_SIMPLEX、 4.5 、( 255 、 1、1 )、 12 )plt.figure(figsize=( 20 、 20 ))plt.imshow(出力)plt.show()

テーブルが検出されると、モデルは境界ボックス内にテーブルの境界をマークします。

境界ボックスの座標 (x1、y1、x2、y2)、table_area は Camelot read_pdf 関数に入力され、table_area は正規化された境界ボックスです。

 interesting_areas=[]output = [[x1, y1, x2, y2]] for x in output: [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x) bbox_camelot = [ "," .join([str(x1), str(y1), str(x2), str(y2)]) ][ 0 ] # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space #print(bbox_camelot) interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf( filepath=pdf_file, pages=str(pg), flavor= "stream" , table_areas=interesting_areas)output_camelot[ 0 ].df
このようにして、表形式のデータを Panda データ フレームに変換し、後続の処理に使用できます。

写真をどうするか

スキャンされた画像形式の PDF フォームの場合、 Ocrmypdf パッケージを使用して、画像形式の PDF をテキスト形式に変換できます。

Ocrmypdf は、画像ベースの PDF をテキストベースの PDF に変換する Python パッケージです。

次のコマンドラインを使用して、macOS および Linux で利用可能な ocrmypdf をインストールします。

 ocrmypdf をインストール

次のコマンドによって呼び出されます:

 ocrmypdf 入力ファイル.pdf 出力ファイル.pdf

その後は上記の方法でテーブルを抽出できます。

画像に対応し、Google GPU を無料で使用できるこの PDF スプレッドシートツールはいかがでしょうか? 役に立ちますか?

ポータル

プロジェクトアドレス:
https://github.com/ferrygun/PDFTableExtract

オンラインラベリングツール:
https://www.makesense.ai/

<<: 「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

>>: エンジニアの職が危機に：ボストン・ダイナミクスのロボット犬がフォードにエンジニアとして入社！

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

PDF テーブルを抽出するニューラルネットワークツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

テスト例

姿勢の詳しい説明

Keras-RetinaNet をトレーニングしてテーブルを認識する

テストの実行

写真をどうするか

ポータル

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

自動化の将来はどうなるのでしょうか?

エネルギー業界における AI 成長の 5 つの要因

2018 年に人工知能を変える 5 つのビッグデータトレンド

幼稚園のAI教材を公開！プログラミング学習は幼稚園から始まる

Stack Overflow は独自の生成 AI ツールを公開するためにスタッフの 28% を削減

歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

新しい物理学AIは量子コンピューティング革命の鍵となるかもしれない

[詳細] 人工知能の生涯を10分で読む

推薦する

大きな模型 = 容器に入った脳？同源病院の朱松春氏のチームがAGIの主な欠陥を分析

史上最も高いガンダムロボットが横浜港で公開される。高さ18メートルで歩行も可能

モジュラーコンピュータはこうあるべきだ: 1人の人間が作った超小型コンピュータがオタクコミュニティ全体に衝撃を与えた

人工知能の時代では、ロボットがあらゆる面で人間に取って代わっている

大根畑の問題を解決する C# アルゴリズム

「CNNの父」ヤン・ルカン氏：人工知能には脳がなく、そのIQは犬ほど高くない

フランスの科学者がアリのように移動できる六脚ロボットを開発

人工知能は「新たな生産要素」である

自然言語処理ライブラリ - Snownlp

COVID-19パンデミックにより非接触型生体認証の利用が拡大

形状精度の高い 3D 認識画像合成のためのシェーディングガイド付き生成暗黙モデル