AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

[[399492]]

Big Blue は、AI ベースのプログラミングツール向けの充実したトレーニングリソースである ImageNet を作成したいと考えています。

IBM は、機械学習プログラムにコーディングを教えるためのソースコードの膨大なリポジトリを構築しました。

Project CodeNetと呼ばれるこのデータセットには、Java、C、GoからCOBOL、Pascal、FORTRANまで、55を超えるプログラミング言語で合計5億行のコードに相当する1,400万のコード例が含まれています。正直に言うと、コードの 4 分の 3 以上は C++ と Python で書かれています。

ソースコードは、製品版アプリケーションや開発中のアプリケーションから取得したものではなく、日本で開催された 2 つの主要なプログラミングコンテスト、Aizu と AtCoder の参加者が提出したソフトウェアから収集されたものです。これらのコンテストでは、参加者は特定の入力セットを目的の出力セットに変換するために必要なコードを記述する必要があります。コード例の約半分は期待どおりに動作し、残りは不正な解決策、ビルドできない、またはバグがあるとしてマークされました。

たとえば、理想的には、良いプログラムを識別し、悪いプログラムを拒否できる AI ツールをトレーニングします。 700 万のコード例には、入力と目的の出力が含まれています。

IBM は、CodeNet が、コンピュータービジョンアプリケーションのトレーニングに使用される画像とラベルのデータベースである ImageNet をモデルにし、ソフトウェア開発の青写真 (コードが実際にどのように見えるか、他のコードとどのように比較されるか) をソフトウェアに理解させるための主要なデータセットになることを期待しています。 IBM は、CodeNet を使用して、アプリケーションやライブラリソースを検索して必要なルーチンを見つけたり、ある言語から別の言語に翻訳したり、エラーを識別したり実装メカニズムを修正したりできる開発ツールをトレーニングできることを期待しています。

「IBMは、CodeNetがソースコード間の変換やレガシーコードベースを最新のコード言語に変換するための貴重なベンチマークデータセットとして機能し、企業のAI導入を加速させるのに役立つと考えています」とIBMは今週のThinkバーチャルカンファレンスでこのプロジェクトを発表した際に述べた。

IBM と MIT-IBM Watson AI Lab チームは共同でデータセットを開発し、その作業を説明する論文を書き、収集した資料をすべてプロジェクトの GitHub ページ (https://github.com/IBM/Project_CodeNet) に掲載しました。

「このデータセットは、その規模だけでなく、コードの類似性と分類からコード推奨アルゴリズムの進歩、多数のプログラミング言語間のコード変換、コードパフォーマンス改善技術の進歩まで、ベンチマークに役立つプログラミングタスクの多様性においてもユニークです」と研究者らは報告書で結論付けている。

<<: ロボットは視覚障害者が再び世界を見るのを助ける

>>: AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

ブログ

深い思考: テイクアウトの背後にある人工知能アルゴリズムの秘密_IT テクノロジーウィークリー 647 号

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

ディープラーニングベースの対話状態追跡のレビュー

10億のパラメータを持つAIモデルSEERは、すべての人を平等に扱い、富裕層と世界に貢献します。

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

深い思考: テイクアウトの背後にある人工知能アルゴリズムの秘密_IT テクノロジーウィークリー 647 号

ビットコインアルゴリズム調整！世界の鉱山会社にとって採掘は困難に：利益は急激に減少

MIT、指の爪ほどの大きさのドローンを作れるマイクロチップを設計

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました！

聞いてください、トランスフォーマーはサポートベクターマシンです

推薦する

「人工知能＋学習」は教育をより良くするのでしょうか？

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

メディア分野における人工知能の革新は期待に値する

人工知能の未来を見据えて、いつかは遊ぶだけになる日が来るでしょう!

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

ドラッグアンドドロップ機械学習の愛と憎しみ

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

顔認証決済の登場：「決済戦争」の次なる激戦点となるか？

テンセントクラウドが7つの新製品をリリース、AIアプリケーションは洗練へ向かう

Transformer を画像セマンティックセグメンテーションに使用し、最先端の畳み込み手法を上回るパフォーマンスを実現