従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講義のメモを取りたい場合は、PDF から多くのコンテンツをコピーして貼り付ける必要があります。 最近、K1 Digital のシニア機械学習エンジニアである Lucas Soares 氏は、OCR (光学文字認識) を使用して PDF スライドを自動的に転記し、マークダウン ファイル内でそのコンテンツを直接操作して、PDF コンテンツの手動コピー アンド ペーストを回避することで、このプロセスを自動化しようとしています。 左はプロジェクト作者のルーカス・ソアレスです。 プロジェクトアドレス: https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides 従来の PDF からテキストへの変換ツールを使用しないのはなぜですか? ルーカス・ソアレス氏は、従来のツールでは問題がさらに増え、解決に時間がかかることに気付きました。彼は従来の Python パッケージの使用を試みましたが、複雑な正規表現パターンを使用して最終出力を解析する必要があるなど、多くの問題に遭遇したため、オブジェクト検出と OCRを試してみることにしました。 基本的なプロセスは次のステップに分けられます。
PDF をテキストに転記するディープラーニングベースの OCR PDFを画像に変換する Soares が使用した PDF スライドは、David Silver の Reinforcement Learning からのものです (下記の PDF スライドのアドレスを参照)。 「pdf2image」パッケージを使用して、各スライドを png 画像形式に変換します。 PDF スライドの例。 アドレス: https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf コードは次のとおりです。
処理後、すべての PDF スライドは PNG 形式の画像に変換されます。 画像内のテキストを検出して認識する PNG 画像内のテキストを検出して認識するために、Soares は ocr.pytorch ライブラリのテキスト検出器を使用しました。指示に従ってモデルをダウンロードし、チェックポイント フォルダーにモデルを保存します。 ocr.pytorch ライブラリのアドレス: https://github.com/courao/ocr.pytorch コードは次のとおりです。
入力フォルダーと出力フォルダーを設定し、すべての入力画像 (変換された PDF スライド) をループし、single_pic_proc() 関数を介して OCR モジュールの検出モデルと認識モデルを実行し、最後に出力を出力フォルダーに保存します。 検出は Pytorch CTPN モデルを継承し、認識は Pytorch CRNN モデルを継承します。どちらも OCR モジュールに存在します。 サンプル出力 コードは次のとおりです。
下の左側の写真は元の PDF スライドを示しており、右側の写真は非常に高い精度で転写された出力テキストを示しています。 テキスト認識出力は次のようになります。
こうすることで、手書きのメモの検出と認識から写真内のランダムなテキストの検出と認識まで、あらゆる種類の文書を転記するための非常に強力なツールが完成します。独自の OCR ツールを使用してテキスト コンテンツを処理した方が、外部ソフトウェアを使用してドキュメントを書き写すよりもはるかに優れています。 |
<<: Google が史上最強の人間の脳の「地図」を公開、3D ニューロンの「森」がオンラインで閲覧可能に
>>: まだ理解していないフーリエ変換。ニューラルネットワークはそれを学習するのにたった30行以上のコードしか使用しませんでした
[[251667]]バディ割り当てアルゴリズムこれはページ フレームの連続セクションであると仮定し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能は人類史上最も革命的な技術の一つとなるでしょう。 AI テクノロジーが発展するにつれて、どの...
人工知能は、ビジネスから工業デザイン、エンターテインメントまで、さまざまな分野で新たな機会を提供して...
ウェブサイトのランキングは、ウェブサイトの最適化を行うすべての人が最も気にしていることです。しかし、...
ディープラーニングは大量のデータからパターンを見つけるのが得意だが、それらの間のつながりを説明するこ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[259612]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
コンピュータの出現以来、人類は思考できる機械を創ることを夢見てきました。 1956 年、ジョン マッ...
代償なくして勝利はない。しかし、私たちはしばしばこのことを忘れ、即座の勝利を要求します。これは、世界...
建設業界へのドローンの導入は、高度な建設手順を合理化することで業界に大きな変化をもたらしました。建設...
[51CTO.com クイック翻訳] 最近、ロボットスタートアップのMarbleがYelpと提携し...
コンテキストを提供し、大量の情報に隠された答えを発見するために、コグニティブ コンピューティングはさ...