Python を使用して画像からテーブルを抽出する

Python を使用して画像からテーブルを抽出する

約 1 年前、私はファイルからデータ、主にテーブルに含まれるデータを抽出して構造化するタスクを割り当てられました。私はコンピューター ビジョンに関する事前の知識がなかったため、適切な「プラグ アンド プレイ」ソリューションを見つけるのに苦労していました。当時利用できるオプションは、大規模で扱いにくい最先端のニューラル ネットワーク (NN) ベースのソリューションか、一貫性が十分でない OpenCV ベースのよりシンプルなソリューションのいずれかでした。

既存の OpenCV スクリプトに触発されて、テーブルを抽出するためのシンプルで一貫性のある方法を開発し、それをオープンソースの Python ライブラリ img2table にしました。

リンク: https://github.com/xavctn/img2table

私のライブラリは何をしますか?

ディープラーニング ソリューションと比較すると、この軽量パッケージではトレーニングは不要で、パラメータ化も最小限で済みます。以下の機能を提供します:

  • 表セル レベルの境界ボックスを含む、画像および PDF ファイル内の表を識別します。
  • サポートされている OCR サービス/ツールを使用してテーブル コンテンツを抽出します (現在、Tesseract、PaddleOCR、AWS Textract、Google Vision、Azure OCR がサポートされています)。
  • 結合されたセルなどの複雑なテーブル構造を処理します。
  • 画像の傾きと回転を修正するメソッドを実装します。
  • 抽出されたテーブルは、Pandas DataFrame 表現を含む単純なオブジェクトとして返されます。
  • 抽出されたテーブルを元の構造を保持したまま Excel ファイルとしてエクスポートするオプション。

どうやって使うの?

pip 経由でライブラリをインストールして使用することができます。

 pip install img2table

ドキュメント内のテーブルを識別するのは、1 つの関数を呼び出すだけです。

 from img2table.document import Image # Instantiation of the image img = Image(src="myimage.jpg") # Table identification img_tables = img.extract_tables() # Result of table identification img_tables [ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上記の例で使用されている画像

テーブルの内容を抽出するには、OCR ツールを使用する必要があります。これは次のように実行できます。

 from img2table.document import PDF from img2table.ocr import TesseractOCR # Instantiation of the pdf pdf = PDF(src="mypdf.pdf") # Instantiation of the OCR, Tesseract, which requires prior installation ocr = TesseractOCR(lang="eng") # Table identification and extraction pdf_tables = pdf.extract_tables(ocr=ocr) # We can also create an excel file with the tables pdf.to_xlsx('tables.xlsx', ocr=ocr)

PDFから抽出した表の例

最後に、単純なケースでは、borderless_tables パラメータを設定することで、「境界のない」テーブル抽出を実行できます。これにより、セルを境界線で完全に囲まれる必要のないテーブルを検出できます。

「ボーダーレス」テーブル抽出例

それだけです!実際のところ、ライブラリには複雑なものはあまりありません。他の利用可能なソリューションによってもたらされる複雑さを回避するために、ライブラリをできるだけシンプルに保つことが目標だからです。

より詳細なドキュメントと例については、プロジェクトの GitHub ページをご覧ください: https://github.com/xavctn/img2table

低レベルの実装

すべての画像処理は OpenCV および opencv-python ライブラリを使用して行われます。しかし、これはまだかなり基本的なものです。

アルゴリズムのバックボーンとなるのはハフ変換で、画像内の線を識別し、画像内の水平線と垂直線を検出できます。

 cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

その後、行に対していくつかの処理を実行して行からセルを識別し、次にセルからテーブルを識別します。

アルゴリズムの簡略化された表現を実装する

ほとんどの計算は、優れたパフォーマンスと速度を実現するために Polars を使用して実行されます。

<<: 

>>: 

ブログ    
ブログ    

推薦する

人工知能とモノのインターネット:スマートシティの交通管理

今日のスマート シティは、都市部を再形成する高度なテクノロジーによって推進されています。人工知能とモ...

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

何十年もの間、ニュースの見出しやSF小説では、トラック運転手やショッピングモールの警備員から芸術家や...

自律型ドローン技術の長所と短所を探る

自律型ドローン技術は、業界全体に変革をもたらす力として登場し、比類のない効率性と革新性を約束していま...

人工知能技術の発展の概要

[[352219]]人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956...

日常の問題を自動的に解決する 5 つの AI API

今日の AI テクノロジーを使用して手作業を自動化しましょう。文書の校正、アートの作成、Google...

...

...

...

...

...

Googleの研究は数学の問題をコードに変換することで、機械証明の精度を大幅に向上させた。

コンピュータは以前から数学の証明を検証するために使用されてきましたが、特別に設計された証明言語を使用...

オープンモデルの重みはAIを制御不能にすると言われ、Metaはプラカードで抗議され、LeCun:オープンソースAIコミュニティは活発化している

AIの分野では、オープンソースとクローズドソースの選択については、常に意見が分かれてきました。しかし...

AIOps で IT 運用にインテリジェンスを組み込む方法

クラウド プラットフォーム、マネージド サービス プロバイダー、デジタル変革を進めている組織は、AI...