Python を使用して画像からテーブルを抽出する

約 1 年前、私はファイルからデータ、主にテーブルに含まれるデータを抽出して構造化するタスクを割り当てられました。私はコンピュータービジョンに関する事前の知識がなかったため、適切な「プラグアンドプレイ」ソリューションを見つけるのに苦労していました。当時利用できるオプションは、大規模で扱いにくい最先端のニューラルネットワーク (NN) ベースのソリューションか、一貫性が十分でない OpenCV ベースのよりシンプルなソリューションのいずれかでした。

既存の OpenCV スクリプトに触発されて、テーブルを抽出するためのシンプルで一貫性のある方法を開発し、それをオープンソースの Python ライブラリ img2table にしました。

リンク: https://github.com/xavctn/img2table

私のライブラリは何をしますか?

ディープラーニングソリューションと比較すると、この軽量パッケージではトレーニングは不要で、パラメータ化も最小限で済みます。以下の機能を提供します:

表セルレベルの境界ボックスを含む、画像および PDF ファイル内の表を識別します。
サポートされている OCR サービス/ツールを使用してテーブルコンテンツを抽出します (現在、Tesseract、PaddleOCR、AWS Textract、Google Vision、Azure OCR がサポートされています)。
結合されたセルなどの複雑なテーブル構造を処理します。
画像の傾きと回転を修正するメソッドを実装します。
抽出されたテーブルは、Pandas DataFrame 表現を含む単純なオブジェクトとして返されます。
抽出されたテーブルを元の構造を保持したまま Excel ファイルとしてエクスポートするオプション。

どうやって使うの？

pip 経由でライブラリをインストールして使用することができます。

 pip install img2table

ドキュメント内のテーブルを識別するのは、1 つの関数を呼び出すだけです。

 from img2table.document import Image # Instantiation of the image img = Image(src="myimage.jpg") # Table identification img_tables = img.extract_tables() # Result of table identification img_tables [ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上記の例で使用されている画像

テーブルの内容を抽出するには、OCR ツールを使用する必要があります。これは次のように実行できます。

 from img2table.document import PDF from img2table.ocr import TesseractOCR # Instantiation of the pdf pdf = PDF(src="mypdf.pdf") # Instantiation of the OCR, Tesseract, which requires prior installation ocr = TesseractOCR(lang="eng") # Table identification and extraction pdf_tables = pdf.extract_tables(ocr=ocr) # We can also create an excel file with the tables pdf.to_xlsx('tables.xlsx', ocr=ocr)

PDFから抽出した表の例

最後に、単純なケースでは、borderless_tables パラメータを設定することで、「境界のない」テーブル抽出を実行できます。これにより、セルを境界線で完全に囲まれる必要のないテーブルを検出できます。

「ボーダーレス」テーブル抽出例

それだけです！実際のところ、ライブラリには複雑なものはあまりありません。他の利用可能なソリューションによってもたらされる複雑さを回避するために、ライブラリをできるだけシンプルに保つことが目標だからです。

より詳細なドキュメントと例については、プロジェクトの GitHub ページをご覧ください: https://github.com/xavctn/img2table

低レベルの実装

すべての画像処理は OpenCV および opencv-python ライブラリを使用して行われます。しかし、これはまだかなり基本的なものです。

アルゴリズムのバックボーンとなるのはハフ変換で、画像内の線を識別し、画像内の水平線と垂直線を検出できます。

 cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

その後、行に対していくつかの処理を実行して行からセルを識別し、次にセルからテーブルを識別します。

アルゴリズムの簡略化された表現を実装する

ほとんどの計算は、優れたパフォーマンスと速度を実現するために Polars を使用して実行されます。

<<:

>>:

中国移動のチーフサイエンティスト、馮俊蘭氏との独占インタビュー：AIビジネスアプリケーションは何度も融合する必要がある

ブログ

Python を使用して画像からテーブルを抽出する

私のライブラリは何をしますか?

どうやって使うの？

低レベルの実装

中国移動のチーフサイエンティスト、馮俊蘭氏との独占インタビュー：AIビジネスアプリケーションは何度も融合する必要がある

次世代AIの導入が急増する中、新たな研究がデータの信頼性の問題を警告

Python+AIで静止画像を動かす

まったく新しいスペルチェッカー、ハミング曲認識機能！ Google の「Search On」キャンペーンの最新ハイライトを 1 つの記事で読む

AIで開発効率を高めるVSCode拡張機能9選

カスタマーサービスチーム向けの人工知能と機械学習ツール

AIミドルステーション：アジャイルインテリジェントビジネスサポートソリューション（記録共有）

推薦する

寒波警報（黄色）発令中、ドローンの使用にはご注意ください！

ChatGPT-4、Bard、Claude-2、Copilot空間タスクの正確性の比較

5G+AIは通信とコンピューティングを統合する

2023年の5つの主要なテクノロジートレンド

3月にGithubで最も人気のあるデータサイエンスと機械学習のプロジェクト

現実世界の AI: 今こそ AI が必要な理由

米国保健福祉省がAIとブロックチェーンを活用してサービスを改善する方法

AIを活用したストレージ施設は、企業がデータを最大限に活用するのに役立ちます

メタバースは過大評価されてきたが、2050年までにAIによって現実のものとなる