Big Blue は、AI ベースのプログラミング ツール向けの充実したトレーニング リソースである ImageNet を作成したいと考えています。 IBM は、機械学習プログラムにコーディングを教えるためのソースコードの膨大なリポジトリを構築しました。 Project CodeNetと呼ばれるこのデータセットには、Java、C、GoからCOBOL、Pascal、FORTRANまで、55を超えるプログラミング言語で合計5億行のコードに相当する1,400万のコード例が含まれています。正直に言うと、コードの 4 分の 3 以上は C++ と Python で書かれています。 ソースコードは、製品版アプリケーションや開発中のアプリケーションから取得したものではなく、日本で開催された 2 つの主要なプログラミング コンテスト、Aizu と AtCoder の参加者が提出したソフトウェアから収集されたものです。これらのコンテストでは、参加者は特定の入力セットを目的の出力セットに変換するために必要なコードを記述する必要があります。コード例の約半分は期待どおりに動作し、残りは不正な解決策、ビルドできない、またはバグがあるとしてマークされました。 たとえば、理想的には、良いプログラムを識別し、悪いプログラムを拒否できる AI ツールをトレーニングします。 700 万のコード例には、入力と目的の出力が含まれています。 IBM は、CodeNet が、コンピューター ビジョン アプリケーションのトレーニングに使用される画像とラベルのデータベースである ImageNet をモデルにし、ソフトウェア開発の青写真 (コードが実際にどのように見えるか、他のコードとどのように比較されるか) をソフトウェアに理解させるための主要なデータセットになることを期待しています。 IBM は、CodeNet を使用して、アプリケーションやライブラリ ソースを検索して必要なルーチンを見つけたり、ある言語から別の言語に翻訳したり、エラーを識別したり実装メカニズムを修正したりできる開発ツールをトレーニングできることを期待しています。 「IBMは、CodeNetがソースコード間の変換やレガシーコードベースを最新のコード言語に変換するための貴重なベンチマークデータセットとして機能し、企業のAI導入を加速させるのに役立つと考えています」とIBMは今週のThinkバーチャルカンファレンスでこのプロジェクトを発表した際に述べた。 IBM と MIT-IBM Watson AI Lab チームは共同でデータセットを開発し、その作業を説明する論文を書き、収集した資料をすべてプロジェクトの GitHub ページ (https://github.com/IBM/Project_CodeNet) に掲載しました。 「このデータセットは、その規模だけでなく、コードの類似性と分類からコード推奨アルゴリズムの進歩、多数のプログラミング言語間のコード変換、コードパフォーマンス改善技術の進歩まで、ベンチマークに役立つプログラミングタスクの多様性においてもユニークです」と研究者らは報告書で結論付けている。 |
>>: AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革
「教育は死んだが、学習は不滅である。」半世紀前、アメリカの教育思想家イリイチは著書『脱学校社会』の...
Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...
過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...
[[216218]]人工知能スピーカー2017年は人工知能が爆発的に発展した年であり、「人工知能元...
海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...
ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。 1. 過去世と現在世ドラッグ アン...
[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...
[[280749]]最近、支払いをするために携帯電話を取り出すと、「顔支払い」を選択すると割引があ...
12月11日、テンセントクラウドは北京で新しいビッグデータAI製品発表会を開催した。テンセントクラウ...
[[400873]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...