CV モデルが動作しないのはなぜですか?理由がこんなに単純だとは思いませんでした...

コンピュータービジョンモデルのパフォーマンスが低下する理由は、アーキテクチャ設計上の欠陥、代表的でないデータセット、ハイパーパラメータの選択の誤りなど、数多くあります。しかし、見落とされがちな非常に単純な理由があります。それは、画像の向きです。機械学習の専門家 Adam Geitgey 氏は最近、この単純だが多くの人にとって頭の痛い問題を調査した記事を公開し、この問題を解決するために作成した自動画像回転プログラムを共有しました。

私は、物体認識システムや顔認識プロジェクトなど、コンピュータービジョンと機械学習のプロジェクトについて多くの記事を書いてきました。私は、GitHub で最も人気のある機械学習ライブラリのトップ 10 に入るオープンソースの Python 顔認識ソフトウェアライブラリを持っています。これは、Python やコンピュータービジョンを初めて使用する人から頻繁に質問を受けることも意味します。

私の経験では、他の何よりも人々を苛立たせる技術的な問題が 1 つあります。それは、複雑な理論や高価な GPU ではありません。私たちのほとんどが横向きで画像を記憶していること、そしてコンピューターが横向きの画像内の物体や顔を検出するのがあまり得意ではないことに、ほとんどの人が気づいていません。

デジタルカメラで画像を自動的に回転させる方法

写真を撮るとき、カメラはあなたがどの方向に傾いているかを感知します。別のプログラムで写真を表示すると、正しい向きで表示されます。

厄介なのは、カメラがディスクに保存するファイル内の画像データを実際には回転させないということです。デジタルカメラの画像センサーはラインごとに読み取られるため、最終的には連続したピクセル情報ストリームに組み立てられます。これにより、カメラのポーズに関係なくピクセルデータが常に同じ順序で保存されるため、カメラがピクセルデータを保存しやすくなります。

実際、写真を正しい向きで表示できるかどうかは、画像ビューアアプリケーション次第です。カメラは画像データとともに、カメラの設定、位置データ、そしてもちろんカメラの回転角度など、各写真に関するメタデータも保存します。画像ビューアは、この情報を使用して画像を正しく表示する必要があります。

画像メタデータの最も一般的な形式は Exif (Exchangeable image file format の略) です。 Exif 形式のメタデータは、カメラによって保存された jpeg ファイルに配置されます。この Exif データを画像自体から直接読み取ることはできませんが、読み取り方法を知っている任意のプログラムを使用できます。

以下は、Exiftool を使用して読み取った、上記のガチョウの写真の Exif メタデータです。

Orientation データ要素に注意してください。これは、画像を画面に表示する前に、画像を時計回りに 90 度回転するように画像ビューアプログラムに指示します。プログラムがこれを忘れると、画像は横向きに表示されます。

多くの Python コンピュータービジョンアプリケーションのパフォーマンスが低下するのはなぜでしょうか?

Exif メタデータは、jpeg ファイル形式のネイティブな部分ではありません。 TIFF ファイル形式でこのメタデータが使用された後、JPEG ファイル形式でこのメタデータが追加されました。これにより、旧世代の画像ビューアとの下位互換性が維持されますが、一部のプログラムでは Exif データを解析しないという問題も生じます。

numpy、scipy、TensorFlow、Keras など、画像データを扱うためのほとんどの Python ライブラリは、汎用的なデータ配列を扱う人々のための科学的なツールであると考えられています。そのため、現在のすべてのカメラで写真を撮るためにこの機能が必要であるにもかかわらず、彼らは「画像の自動回転」のような消費者レベルの問題を気にしません。

これは、Python ライブラリを使用して画像を読み込むと、回転されていない元の画像データが取得されることを意味します。では、横向きまたは上下逆さまの画像を顔認識モデルまたは物体検出モデルに入力すると何が起こると思いますか?誤ったデータを提供したため、検出器は失敗します。

この問題は初心者や学生が書いた Python スクリプトに限定されると思われるかもしれませんが、そうではありません。 Google の主力製品である Vision API デモでも、Exif の方向を正しく処理できません。

Google の Vision API デモでは、モバイルでキャプチャされた標準的なポートレート画像を回転できません。

Google の視覚技術は、横から撮影した画像の中にいくつかの動物がいることを正常に検出しましたが、特定できない「動物」というラベルしか付与しませんでした。これは、モデルにとって、前を向いているガチョウを検出するよりも、横を向いているガチョウを検出する方がはるかに難しいためです。入力する前に正しく回転させると、Google Vision API は次の結果を生成します。

画像の向きが正しい場合、Google の検出はより具体的になります。つまり、「ガチョウ」というラベルが正しく付けられるだけでなく、信頼スコアも大幅に高くなり、はるかに優れた結果となります。

このデモンストレーションのように画像を横向きで見ると、この問題はさらに明白になります。しかし、問題は、一般的にはそれを見ることができないということです。今日のコンピュータの一般的なプログラムは、画像を、実際にディスクに保存されている横向きの形式ではなく、正しく回転した形式で表示します。そのため、モデルが機能しない理由を理解するために画像を確認すると、画像ビューアは正しい方向で画像を表示し、モデルがうまく機能しない理由を理解する方法がなくなります。

Mac の Finder では常に Exif 回転が適用された画像が表示されるため、ファイル内の画像データが実際に横向きになっているかどうかはわかりません。

これにより、使用していたオープンソースプロジェクトが機能しなかった、またはモデルの精度が不十分だったという問題が GitHub に報告されることが必然的に発生します。しかし、問題の本質は非常に単純です。画像を横向き、あるいは上下逆さまに入力しているのです。

この問題を解決する

解決策は、Python プログラムで画像を読み込むたびに Exif 方向メタデータチェックを実行し、必要に応じて画像を回転させることです。実行するのは簡単ですが、すべての方向で回転を正しく実行するサンプルコードをオンラインで見つけるのは困難です。

以下は、NumPy 配列に読み込む前に、任意の画像に正しい向きを適用するコードです。

 PIL.Imageをインポートする
PIL.ImageOpsをインポートする
numpyをnpとしてインポートする
  
  
 exif_transpose(画像):
そうでない場合は画像:
画像を返す
  
    exif_orientation_tag = 274    
  
    # EXIFデータを確認する（一部のファイルにのみ存在）
 hasattr(img, "_getexif" ) かつ isinstance(img._getexif(), dict) かつ exif_orientation_tag が img._getexif() にある場合:
        exif_data = img._getexif()
        方向 = exif_data[exif_orientation_tag] 
  
        # EXIFの向きを処理する
方向 == 1 の場合:
            # 通常の画像 - 何もする必要はありません!
            合格
        elif 方向 == 2 :
            # 左から右にミラーリング
            img = img.transpose(PIL.Image.FLIP_LEFT_RIGHT)
        elif 方向 == 3 :
            # 180度回転
            回転( 180 )
        elif 方向 == 4 :
            # 上から下にミラーリング
            img = img.rotate( 180 ).transpose(PIL.Image.FLIP_LEFT_RIGHT)
        elif 方向 == 5 :
            # 左上の対角線に沿って反転
            img = img.rotate( -90 , expand=True).transpose(PIL.Image.FLIP_LEFT_RIGHT) です。
        elif 方向 == 6 :
            # 90度回転
            img = img.rotate( -90 , expand=True) で拡大縮小します。
        elif 方向 == 7 :
            # 右上の対角線に沿って反転
            img = img.rotate( 90 , expand=True ).transpose(PIL.Image.FLIP_LEFT_RIGHT)
        elif 方向 == 8 :
            # 270度回転
            img = img.rotate( 90 , expand=True) 
  
画像を返す
  
  
 def load_image_file(ファイル、モード= 'RGB' ):
    # PILで画像を読み込む
    img = PIL.Image.open(ファイル) 
  
 hasattr(PIL.ImageOps, 'exif_transpose' )の場合:
        # 最近のバージョンのPILでは内部的にexit transposeを実行できる
        画像 = PIL.ImageOps.exif_transpose(画像)
それ以外：
        # それ以外の場合は、 exifを自分で転置する
        画像 = exif_transpose(画像) 
  
    img = img.convert(モード) 
  
 np.array(画像)を返す

その後、この画像データの配列を、Keras や TensorFlow など、必要なすべての標準 Python 機械学習ライブラリに渡すことができます。

この問題は非常によくあるため、image_to_numpy という pip ライブラリを作成しました。これは次のようにインストールできます。

 pip3 インストール image_to_numpy

これを任意の Python プログラムで使用して、適切な画像の読み込みを実装できます。次に例を示します。

 matplotlib.pyplot を plt としてインポートします。
 import image_to_numpy# 画像ファイルを読み込みます
img = image_to_numpy.load_image_file( "my_file.jpg" ) # 画面に表示する（または何でもしたい）
 plt.imshow(画像)
 plt.show()