AIデータをGitのように活用しましょう!無料ホスティングツールがリリースされ、「ライブ」データセットでトレーニングが可能に

AIデータをGitのように活用しましょう!無料ホスティングツールがリリースされ、「ライブ」データセットでトレーニングが可能に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

機械学習に携わる人の多くは、データ管理に悩んでいます。

データセットが古いため、手動で修正して注釈を付ける必要がある。

あるいは、他の人によって調整された同じデータ セットのバージョンが多数存在するため、どこから始めればよいかがわかりにくくなります。

または、適切なデータセットが存在しない場合には、自分で構築する必要があります。

[[377448]]

海外では、 Simon Louskyというプログラマーがついに我慢できなくなり、機械学習用のデータ バージョン管理ツール(Data Version Control、DVC) を開発しました。

ワンクリックでデータセットを呼び出し、ワンクリックで編集履歴を表示します...最も重要なのは、DVC ツールの背後には、GitHub のようなデータ ホスティング コミュニティがあることです。

データセットを「アクティブ化」する

Simon Lousky 氏は、学生時代にプロジェクトに取り組んでいたときに、機械学習データセットの管理が不便であるという問題点を感じていました。

当時、彼のモデルはトレーニングのために植物や花のデータを必要としていましたが、オープンソースのデータセットでは妥当な結果を生み出すことができませんでした。

そこで彼は数時間かけて、データセット内の多数の古くて不合理な注釈を一つずつ修正し、トレーニング結果は非常に満足のいくものでした。

[[377449]]

彼はこのプロジェクト以外にも、その後多くのデータセットを修正、補足、作成しました。彼はこれらの時間と労力を要する作業を「データセットのデバッグと試行錯誤」と呼び、意図的に操作履歴を記録するようになりました。

彼は、自分のプロジェクトでのデータ管理は常に混乱しているが、GitHub でホストされているコードは常に整然としていることに徐々に気づきました。

では、データ管理に特化した GitHub のようなツールを作ってみてはいかがでしょうか?

DVCが誕生しました。

データセットの呼び出し、履歴操作情報の表示などの機能を実装したプリインストールされたツールライブラリです。

その出現は、研究者がこれまでローカルの「デッド」データセットでモデルをトレーニングしていた方法が完全に変わることを意味します。

プロジェクトをオンラインでホストされているデータセット (または任意のファイル) にリンクして、リアルタイムで正確な接続を確立できます。データセットの更新や変更はタイムリーに把握できるため、プロジェクトの開発が容易になります。

たとえば、現在、リポジトリ A は「ライブ」データセットであり、メタデータ ファイルは専用サーバーに保存されている実際の大きなファイルをポイントしています。

ユーザーはデータセット ファイルをディレクトリに整理し、ユーティリティ関数を使用してコード ファイルを追加して簡単に呼び出すことができます。

さらに、機械学習プロジェクトに対応するリポジトリ B があります。プロジェクト コードには、DVC を使用してデータセットをインポートするための手順が含まれています。

A と B 間の接続を確立するには、データ レジストリを作成するだけです。

  1. mkdir my-dataset && cd my-dataset
  2. git 初期化
  3. DVC 初期化

この時点で、データセット ディレクトリは次のようになります。

データセットの関連情報を表示するには、次のコマンドを入力します。

  1. dvc 注釈を追加
  2. dvc 画像を追加
  3. git add . && git commit -m “データセットの管理を開始します”

データセットのプレビューは、DVC によって追跡されるディレクトリに保存されます。

その後、ユーザーはコードとデータをホストされたリポジトリにプッシュするだけで、いつでもどこからでもアクセスして他のユーザーと共有できるようになります。

もちろん、DVC が機能するには、その背後にあるDAGsHubが不可欠です。

DAGsHub は GitHub のデータ管理バージョンであり、git リポジトリ、DVC、機械学習プロセス プラットフォーム mlflow の 3 つの部分で構成されています。

ユーザーは独自のプロジェクトを提出することができ、DAGsHub は提出されたプロジェクトを自動的にスキャンし、実験パラメータ、データ ファイル、モデルへのリンクなどの有用な情報を抽出し、それらをシンプルなインターフェイスに組み合わせます。

DAGsHub を使用すると、何もダウンロードせずにコード、データ、モデル、実験を閲覧および比較できます。

さらに、視覚的なデータ パイプライン、データ操作履歴を生成し、モデルのパフォーマンスを自動的かつ美しく記録できます。

機械学習プロジェクトで「ライブ」データセットを使用する方法

DAGsHub を使用するには、登録してログインするだけです。

次のコマンドを使用して DVC をインストールします。

  1. pip3 インストール dvc

DAGsHub でデータセットを見つけました。それを自分のモデルで使用するにはどうすればよいですか?

まず、ホストされているデータセットからディレクトリを生のファイルであるかのようにインポートします。

  1. mkdir -p データ/raw
  2. dvcインポート-o データ/raw/画像 \
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
  4. データ/画像
  5. dvcインポート-o データ/raw/注釈 \
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
  7. データ/注釈

画像と注釈は、履歴情報を保持したまま、独自のプロジェクトにダウンロードされます。

データセットの変更履歴を知りたい場合は、次のコマンドを実行するだけです。

DVC アップデート

視覚化の結果をデフォルトのディレクトリに保存することができます。

便利じゃないですか?

ちなみに、DVC と DAGsHub はどちらもオープンソースで無料ですので、ぜひ試してみてください。

ポータル:

DVC チュートリアル: https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHubホームページ: https://dagshub.com/

<<:  IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測

>>:  今年の春節旅行は異例、テクノロジーが鍵

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Linux環境で仮想化技術を使用する方法

仮想化テクノロジーは、物理ホストが複数の仮想コンピューティング環境を同時に実行できるように、コンピュ...

Facebookはライブ動画でユーザーを見えなくする匿名化システムを開発した

最近、ノルウェー科学技術大学の「DeepPrivacy: 顔の匿名化のための生成的敵対的ネットワーク...

2017 年に最も価値のある機械学習のスキルや知識は何ですか?

2017 年に最も価値のある機械学習スキルはどれでしょうか? Quora の 2 つの回答では、最...

...

ディープラーニング + OpenCV、Python でリアルタイムのビデオ オブジェクト検出を実現

OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...

人工知能とビッグデータがビジネス環境をどう変えるのか

人々がビジネスを行うようになって以来、ビジネスを強化するためにテクノロジーが活用されてきました。 1...

ChatGPTを使った学生の不正行為を防ぐため、一部の大学教授は紙ベースの試験と手書きのエッセイへの復帰を検討している。

8月14日、人工知能(AI)の発展は教育に新たな課題をもたらしました。フォーチュン誌の最近の報道に...

...

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコス...

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの? NeRF は、今年コンピューター ビジョン分野で最も注目されている ...

...

天猫双11:機械​​知能が上昇、ロボット1台は実在の人間70万人に相当

「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...

AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

1新しいインテリジェンス集出典: arXiv、Github張毅編纂[新しいインテリジェンスの紹介]自...

人工知能はどのようにして新しい世界を創造するのでしょうか?

AI は時間の経過とともにさらに賢くなり、パワーを増していきます。私たちの多くにとって、人工知能 ...

フラッシュは廃止されるが、5G時代の新技術は過去を思い出す暇を与えないだろう

Adobe が 2020 年 12 月 31 日をもって有名な Flash ソフトウェアのサポートを...