AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

[[399492]]

Big Blue は、AI ベースのプログラミング ツール向けの充実したトレーニング リソースである ImageNet を作成したいと考えています。

IBM は、機械学習プログラムにコーディングを教えるためのソースコードの膨大なリポジトリを構築しました。

Project CodeNetと呼ばれるこのデータセットには、Java、C、GoからCOBOL、Pascal、FORTRANまで、55を超えるプログラミング言語で合計5億行のコードに相当する1,400万のコード例が含まれています。正直に言うと、コードの 4 分の 3 以上は C++ と Python で書かれています。

ソースコードは、製品版アプリケーションや開発中のアプリケーションから取得したものではなく、日本で開催された 2 つの主要なプログラミング コンテスト、Aizu と AtCoder の参加者が提出したソフトウェアから収集されたものです。これらのコンテストでは、参加者は特定の入力セットを目的の出力セットに変換するために必要なコードを記述する必要があります。コード例の約半分は期待どおりに動作し、残りは不正な解決策、ビルドできない、またはバグがあるとしてマークされました。

たとえば、理想的には、良いプログラムを識別し、悪いプログラムを拒否できる AI ツールをトレーニングします。 700 万のコード例には、入力と目的の出力が含まれています。

IBM は、CodeNet が、コンピューター ビジョン アプリケーションのトレーニングに使用される画像とラベルのデータベースである ImageNet をモデルにし、ソフトウェア開発の青写真 (コードが実際にどのように見えるか、他のコードとどのように比較されるか) をソフトウェアに理解させるための主要なデータセットになることを期待しています。 IBM は、CodeNet を使用して、アプリケーションやライブラリ ソースを検索して必要なルーチンを見つけたり、ある言語から別の言語に翻訳したり、エラーを識別したり実装メカニズムを修正したりできる開発ツールをトレーニングできることを期待しています。

「IBMは、CodeNetがソースコード間の変換やレガシーコードベースを最新のコード言語に変換するための貴重なベンチマークデータセットとして機能し、企業のAI導入を加速させるのに役立つと考えています」とIBMは今週のThinkバーチャルカンファレンスでこのプロジェクトを発表した際に述べた。

IBM と MIT-IBM Watson AI Lab チームは共同でデータセットを開発し、その作業を説明する論文を書き、収集した資料をすべてプロジェクトの GitHub ページ (https://github.com/IBM/Project_CodeNet) に掲載しました。

「このデータセットは、その規模だけでなく、コードの類似性と分類からコード推奨アルゴリズムの進歩、多数のプログラミング言語間のコード変換、コードパフォーマンス改善技術の進歩まで、ベンチマークに役立つプログラミングタスクの多様性においてもユニークです」と研究者らは報告書で結論付けている。

<<:  ロボットは視覚障害者が再び世界を見るのを助ける

>>:  AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで...

...

この記事では、人工知能がクラウドコンピューティングをどのように変え、私たちの生活にどのような影響を与えるかを説明します。

AIがクラウドコンピューティングをどう変えるかクラウド コンピューティングは、オンライン アクティ...

このAIは、監視カメラを素早く検索し、重要なシーンを見つけ、24時間のビデオを10分で処理するのに役立ちます。

1月23日のニュース、今日では、ビデオ監視の存在により、過去には検証が困難だった多くの事実を記録す...

...

音声認識が検索ボックスに取って代わり、人工知能が3つの主要な応用分野で主導権を握る

マイクロソフトのレドモンド研究所の副社長であるデュメイス氏は、ディープラーニング技術が2017年にオ...

同意しますか?コンピューティングの未来は分散化です!

[51CTO.com クイック翻訳] 分散アプリケーションは何も新しいものではありません。最初の分...

セキュリティにおける機械学習の 5 つの優れた使用例

機械学習は、企業が直面するセキュリティ上の脅威をより深く理解し、従業員がより価値のある戦略的タスクに...

実践的 | この記事は畳み込みニューラルネットワークを始めるのに十分です

まず、ディープラーニングとはすべてのディープラーニングアルゴリズムの総称であり、CNNは画像処理分野...

米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効

最近、米国商務省産業安全保障局(BIS)は、サイバーセキュリティ分野に関する最新の輸出管理規制を正式...

...

...

...

機械学習は2021年にこれらの5つの業界を変革するだろう

機械学習は、COVID-19 によって揺さぶられた世界におけるスムーズな移行を可能にしています。機械...

...