PaddleOCRのスーパーパワーを解き放つ

光学文字認識 (OCR) は、機械が画像やスキャンされた文書からテキストを認識して抽出できるようにする強力なテクノロジーです。 OCR は、文書のデジタル化、画像からのテキスト抽出、テキストベースのデータ分析など、さまざまな分野で応用されています。この記事では、高度なディープラーニングベースの OCR ツールキットである PaddleOCR をテキスト検出および認識タスクに使用する方法について説明します。プロセス全体を示すコードスニペットを順に見ていきます。

1. 前提条件

コードに進む前に、PaddleOCR ライブラリが実行できる状態になっていることを確認しましょう。次の必要な前提条件がコンピューターにインストールされていることを確認してください。

Python (3.6 以上)
PaddleOCR ライブラリ
その他の必要な依存関係 (NumPy、pandas など)

次の pip コマンドを使用して PaddleOCR をインストールできます。

 pip install paddleocr

2. PaddleOCRの設定

Python と必要なライブラリをインストールしたら、PaddleOCR を設定しましょう。テキストの検出と認識に使用できる、PaddleOCR の事前トレーニング済みモデルを使用できます。

PaddleOCR を使用したテキスト検出と認識のコードスニペットには、次の主なコンポーネントが含まれています。

画像の前処理: 入力画像を読み込み、サイズ変更や正規化などの必要な前処理手順を実行します。
テキスト検出: PaddleOCR テキスト検出モデルを使用して、入力画像内のテキスト領域の境界ボックスを特定します。
テキスト認識: 検出された境界ボックスごとに、PaddleOCR テキスト認識モデルを使用して対応するテキストを抽出します。
後処理: 検出されたテキストと認識結果を整理して、さらに分析したり表示したりします。

3. 段階的に導入する

コードスニペットを分解して、各ステップを詳しく説明します。

1. テキスト検出

このコードは、実際のデータを使用して光学文字認識 (OCR) を評価するために設計された DecMain というクラスの一部です。 PaddleOCR を使用して画像からテキストを抽出し、精度、再現率、文字エラー率 [CER] などのメトリックを計算して、OCR システムのパフォーマンスを評価します。

 class DecMain: def __init__(self, image_folder_path, label_file_path, output_file): self.image_folder_path = image_folder_path self.label_file_path = label_file_path self.output_file = output_file def run_dec(self): # Check and update the ground truth file CheckAndUpdateGroundTruth(self.label_file_path).check_and_update_ground_truth_file() df = OcrToDf(image_folder=self.image_folder_path, label_file=self.label_file_path, det=True, rec=True, cls=False).ocr_to_df() ground_truth_data = ReadGroundTruthFile(self.label_file_path).read_ground_truth_file() # Get the extracted text as a list of dictionaries (representing the OCR results) ocr_results = df.to_dict(orient="records") # Calculate precision, recall, and CER precision, recall, total_samples = CalculateMetrics(ground_truth_data, ocr_results).calculate_precision_recall() CreateSheet(dataframe=df, precision=precision, recall=recall, total_samples=total_samples, file_name=self.output_file).create_sheet()

コードを分解して各部分について説明しましょう。

 class DecMain: def __init__(self, image_folder_path, label_file_path, output_file): self.image_folder_path = image_folder_path self.label_file_path = label_file_path self.output_file = output_file

DecMain クラスには、次のパラメータを使用してオブジェクトを初期化する __init__ メソッドがあります。

image_folder_path: OCR の入力画像が保存されているフォルダーへのパス。
label_file_path: 画像の実際のテキストコンテンツを含むグラウンドトゥルースラベルファイルへのパス。
output_file: 評価結果が保存される出力ファイルの名前。

 def run_dec(self): # Check and update the ground truth file CheckAndUpdateGroundTruth(self.label_file_path).check_and_update_ground_truth_file()

run_dec メソッドは、OCR 評価プロセスを実行する役割を担います。まず、CheckAndUpdateGroundTruth クラスを使用して、グラウンドトゥルースファイルをチェックおよび更新します。

 df = OcrToDf(image_folder=self.image_folder_path, label_file=self.label_file_path, det=True, rec=True, cls=False).ocr_to_df()

OcrToDf クラスは、OCR の結果を pandas DataFrame (df) に変換するために使用されます。次のパラメータを受け入れます:

image_folder: OCR 入力画像を含むフォルダーへのパス。
label_file: 実際のラベルファイルへのパス。
det=True および rec=True パラメータは、DataFrame にテキスト検出および認識結果が含まれることを示します。

 ground_truth_data = ReadGroundTruthFile(self.label_file_path).read_ground_truth_file()

ReadGroundTruthFile クラスは、真のラベルファイルを読み取り、その内容を ground_truth_data 変数に読み込むために使用されます。

 # Get the extracted text as a list of dictionaries (representing the OCR results) ocr_results = df.to_dict(orient="records")

DataFrame df から取得された OCR 結果は辞書のリスト (ocr_results) に変換され、各辞書は単一の画像の OCR 結果を表します。

 # Calculate precision, recall, and CER precision, recall, total_samples = CalculateMetrics(groun d_truth_data, ocr_results).calculate_precision_recall()

CalculateMetrics クラスは、OCR 評価メトリック (精度、再現率、評価されたサンプルの合計数) を計算するために使用されます。このクラスは、実際のデータと OCR 結果を入力として受け取ります。

 CreateSheet(dataframe=df, precision=precision, recall=recall, total_samples=total_samples, file_name=self.output_file).create_sheet()

CreateSheet クラスは、評価メトリックと OCR 結果を含む出力シート (Excel や CSV など) を作成する役割を担います。入力として、DataFrame df、精度、再現率、サンプルの総数、および出力ファイル名を受け入れます。

全体として、DecMain クラスは、実際のデータと PaddleOCR のテキスト検出および認識機能を使用して OCR モデルのパフォーマンスを評価するための体系的な方法を提供します。重要な評価メトリックを計算し、結果を指定された出力ファイルに保存して、さらに分析します。

2. 注意: 実際のラベルファイルの形式

DecMain クラスと OCR 評価に提供されたコードを使用するには、グラウンドトゥルースラベルファイルを正しくフォーマットする必要があります。グラウンドトゥルースラベルファイルは JSON 形式である必要があり、その構造は次のとおりです。

image_name.jpg [{"transcription": "215mm 18", "points": [[199, 6], [357, 6], [357, 33], [199, 33]], "difficult": False, "key_cls": "digits"}, {"transcription": "XZE SA", "points": [[15, 6], [140, 6], [140, 36], [15, 36]], "difficult": False, "key_cls": "text"}]

グラウンドトゥルースラベルファイルは JSON 形式である必要があります。ファイルの各行は、画像の OCR グラウンドトゥルースラベルを表します。

各行には画像のファイル名が含まれ、その後にその画像の OCR 結果が JSON オブジェクト形式で続きます。

JSON オブジェクトには次の内容が含まれている必要があります。

「転写」: 画像の実際のテキスト転写。
"points": 画像内のテキスト領域の境界ボックスの座標を表す 4 つのポイントのリスト。
「困難」: テキスト領域が認識しにくいかどうかを示すブール値。
"key_cls": OCR 結果のカテゴリラベル (「数字」や「テキスト」など)。

OCR モデルのパフォーマンスを正確に評価するために使用するグラウンドトゥルースラベルファイルを作成するときは、必ずこの形式に従ってください。

3. テキスト認識

このコードは、RecMain というクラスを定義します。このクラスは、事前トレーニング済みの OCR モデルを使用して画像フォルダーに対してテキスト認識 (OCR) を実行し、評価 Excel シートを生成するように設計されています。

 class RecMain: def __init__(self, image_folder, rec_file, output_file): self.image_folder = image_folder self.rec_file = rec_file self.output_file = output_file def run_rec(self): image_paths = GetImagePathsFromFolder(self.image_folder, self.rec_file). \ get_image_paths_from_folder() ocr_model = LoadRecModel().load_model() results = ProcessImages(ocr=ocr_model, image_paths=image_paths).process_images() ground_truth_data = ConvertTextToDict(self.rec_file).convert_txt_to_dict() model_predictions, ground_truth_texts, image_names, precision, recall, \ overall_model_precision, overall_model_recall, cer_data_list = EvaluateRecModel(results, ground_truth_data).evaluate_model() # Create Excel sheet CreateMetricExcel(image_names, model_predictions, ground_truth_texts, precision, recall, cer_data_list, overall_model_precision, overall_model_recall, self.output_file).create_excel_sheet()

コードを分解して各部分について説明しましょう。

 class RecMain: def __init__(self, image_folder, rec_file, output_file): self.image_folder = image_folder self.rec_file = rec_file self.output_file = output_file

RecMain クラスには、次のパラメータを使用してオブジェクトを初期化する __init__ メソッドがあります。

image_folder: テキスト認識用の入力画像を含むフォルダーへのパス。
rec_file: 画像の実際のテキストコンテンツを含むグラウンドトゥルースラベルファイルへのパス。
output_file: 評価結果を保存する出力 Excel テーブルのファイル名。

 def run_rec(self): image_paths = GetImagePathsFromFolder(self.image_folder, self.rec_file).get_image_paths_from_folder()

run_rec メソッドは、テキスト認識プロセスを実行する役割を担います。まず、GetImagePathsFromFolder クラスを使用して、指定された image_folder 内のすべての画像の画像パスのリストを取得します。この手順により、OCR モデルが指定されたディレクトリ内のすべての画像を処理することが保証されます。

 ocr_model = LoadRecModel().load_model()

LoadRecModel クラスは、テキスト認識用の事前トレーニング済み OCR モデルを読み込むために使用されます。モデルをロードするには、PaddleOCR または別の OCR ライブラリが使用される場合があります。

 results = ProcessImages(ocr=ocr_model, image_paths=image_paths).process_images()

ProcessImages クラスは、読み込まれた OCR モデルを使用して画像を処理する役割を担います。入力として、OCR モデル (ocr_model) と画像パスのリスト (image_paths) を受け取ります。

 ground_truth_data = ConvertTextToDict(self.rec_file).convert_txt_to_dict()

ConvertTextToDict クラスは、グラウンドトゥルースラベルファイルを読み取り、それを辞書形式 (ground_truth_data) に変換するために使用されます。この変換により、OCR モデルの予測と比較するための真実データが準備されます。

 model_predictions, ground_truth_texts, image_names, precision, recall, \ overall_model_precision, overall_model_recall, cer_data_list = EvaluateRecModel(results, ground_truth_data).evaluate_model()

EvaluateRecModel クラスは、OCR モデルの予測を実際のデータと比較し、精度、再現率、文字エラー率 (CER) などの評価メトリックを計算する役割を担います。 OCR モデルの予測 (結果) と真実データ (ground_truth_data) を入力として受け取ります。

 # Create Excel sheet CreateMetricExcel(image_names, model_predictions, ground_truth_texts, precision, recall, cer_data_list, overall_model_precision, overall_model_recall, self.output_file).create_excel_sheet()

CreateMetricExcel クラスは、評価メトリックと OCR 結果を含む出力 Excel テーブルを作成します。画像名、モデル予測、グラウンドトゥルーステキスト、評価メトリック、出力ファイル名 (self.output_file) など、さまざまな入力データを受け入れます。

要約すると、RecMain クラスは、OCR モデルの読み込みから詳細なメトリックを含む評価 Excel シートの生成まで、テキスト認識プロセス全体を整理します。これは、特定の画像セットに対する OCR モデルのパフォーマンスを評価するための、体系的かつ再利用可能な方法を提供します。

注: グラウンドトゥルーステキストファイル形式

RecMain クラスと OCR 評価に提供されたコードを使用する場合、グラウンドトゥルース (GT) テキストファイルが正しくフォーマットされていることが重要です。 GT テキストファイルは次の形式である必要があります。

image_name.jpg テキスト

ファイルの各行は、画像の GT テキストを表します。

各行には、画像のファイル名、タブ文字 (\t)、その画像の GT テキストが含まれます。

GT テキストファイルに、画像フォルダーで指定されたすべての画像の GT テキストエントリが含まれていることを確認します。 GT テキストは画像内の実際のテキストコンテンツと一致する必要があります。この形式は、OCR モデルのパフォーマンスを正確に評価するために必要です。

ソースコードはここから入手できます: https://github.com/vinodbaste/paddleOCR_rec_dec?source=post_page

結論は

ディープラーニングに基づく PaddleOCR をテキストの検出と認識に使用するプロセスを検討しました。テキストの検出と認識の実装を段階的に説明しました。 PaddleOCR の強力な事前トレーニング済みモデルと使いやすい API により、画像に対する OCR の実行が簡単になりました。

<<: OpenAI が Stable Diffusion を救います! Ilya Song Yang らによるオープンソースの Dall E3 デコーダー

>>: Fast.ai の 10,000 ワードの記事: AI の安全性と光の終焉

「アドビの父」が82歳で逝去！ガレージで始まり、PostScriptを発明し、伝説的な人生で世界を変えた

PaddleOCRのスーパーパワーを解き放つ

1. 前提条件

2. PaddleOCRの設定

3. 段階的に導入する

1. テキスト検出

2. 注意: 実際のラベルファイルの形式

3. テキスト認識

結論は

「アドビの父」が82歳で逝去！ガレージで始まり、PostScriptを発明し、伝説的な人生で世界を変えた

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

コンピューティングパワーがボトルネックにならないように、Xiaohongshu の機械学習の異種ハードウェア推論を最適化する方法

民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

顔認識を法的に規制する方法

トランスフォーマー後継モデル！ MSRA が新しい大規模モデルインフラストラクチャを提案: 推論速度が 8 倍に向上し、メモリ使用量が 70% 削減

AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

カスタマーサービスで AI ボットを使用する 5 つのメリット

PyTorch 1.0 プレビューがリリースされました: Facebook の最新のオープンソース AI フレームワーク

推薦する

AIは急速に変化しています。コンピュータービジョンの未来はどこにあるのでしょうか?

転移学習に関する最先端の研究：低リソース、ドメイン一般化、安全な転移

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

効率的な本人認証の鍵：生体認証技術

人工知能の「指紋採取」が検出困難な癌と闘う

人工知能は「絶滅危惧」言語の保護に大きな役割を果たすかもしれません！

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

MLCommonsがAI安全ワーキンググループを発表

GPT-4は本当に愚かになったことが研究で証明される：数学的能力は3か月で劇的に低下し、コーディング能力も低下した

AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

ネットユーザーたちは、顔認識技術の何が難しいのかと冗談を言っている。

企業の4分の1以上が従業員による生成AIの使用を禁止している