大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあります。 したがって、唯一の方法は、処理のためにデータをバッチでメモリにロードすることであり、これを行うには追加のコードを記述する必要があります。この目的のために、PyTorch はすでに Dataloader 関数を提供しています。 データローダーPyTorch ライブラリの DataLoader 関数の構文とそのパラメータ情報を以下に示します。
いくつかの重要なパラメータ
組み込みのMNISTデータセットをロードするMNIST は手書きの数字を含む有名なデータセットです。 DataLoader 機能を使用して PyTorch の組み込み MNIST データセットを処理する方法を説明します。
上記のコードは、torchvision の torch コンピュータ ビジョン モジュールをインポートします。これは画像データセットを操作するときによく使用され、画像の正規化、サイズ変更、切り抜きに役立ちます。 MNIST データセットの場合、次の正規化手法が使用されます。 ToTensor() は、0〜255 のグレースケール範囲を 0〜1 に変換できます。
必要なデータセットを読み込むには、次のコードを使用します。 PyTorchDataLoader を使用して、batch_size = 64 を指定してデータをロードします。 shuffle=True はデータをシャッフルします。
データセット内のすべての画像を取得するには、通常、iter 関数とデータ ローダー DataLoader を使用します。
カスタムデータセット次のコードは、1000 個の乱数を含むカスタム データセットを作成します。
ここに画像の説明を挿入 最後に、カスタム データセットでデータローダー関数を使用します。 batch_size は 12 に設定され、num_workers = 2 で並列マルチプロセス データ ロードも有効になります。
以下では、いくつかの例を通して、大量のデータをバッチでメモリにロードする際の PyTorch Dataloader の役割について学習します。 |
<<: 再帰アルゴリズム: 不可解なスイッチ「ライトを引く」
[[410588]]この記事はWeChatの公開アカウント「Muscular Coder」から転載し...
人工知能 (AI) は、過去 10 年ほどの間に SF の世界から現実の世界へと移行し、地球上のほぼ...
[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...
5月5日、ハルビン工業大学(HIT)人工知能研究所の除幕式と「知能・未来創造」ハイエンド人工知能フォ...
導入機械学習モデルは、複数の業界にわたる意思決定プロセスの不可欠な要素となっていますが、ノイズの多い...
みなさんこんにちは。JavaプログラマーのChenです。最近、Open AIが再び人気を集めており、...
テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...