マイクロソフト、精度を80%以上に向上させるAIコードレビューツールを発表

マイクロソフト、精度を80%以上に向上させるAIコードレビューツールを発表

Microsoft は、大規模言語モデルのパフォーマンスを向上させる新しいツール、Jigsaw を発表しました。 「大規模な事前トレーニング済み言語モデル(GPT-3、Codex など)は、プログラマーの意図の自然言語仕様からコードを生成するように調整できます。このような自動化モデルは、世界中のすべてのプログラマーの生産性を向上させる可能性があります。ただし、これらのモデルはプログラムの意味を理解するのが難しい場合があるため、生成されたコードの品質は保証されません。」

紹介文によると、Jigsaw は後処理技術を導入してプログラムの構文とセマンティクスを理解し、ユーザーからのフィードバックを使用して将来のパフォーマンスを向上させます。このツールは、マルチモーダル入力を使用して Python Pandas API のコードを合成するように設計されています。 Pandas はデータ サイエンスで広く使用されている API で、データフレーム (行と列を持つテーブル) を操作するための数百の機能を備えています。

マイクロソフトは、自社の経験から、これらの大規模な言語モデルが意図に基づいてコードを合成するように進化するにつれて、Jigsaw がシステムの精度向上に重要な役割を果たすことができることが示されていると述べた。

OpenAI の Codex のような大規模な言語モデルは、プログラミングの分野を再定義しています。プログラミングタスクを解決する際に、ソフトウェア開発者は予想されるコードスニペットの英語の説明を提供することができ、Codex は予想されるコードを Python や JavaScript などの言語で合成できます。ただし、合成されたコードが正しくなかったり、コンパイルや実行すらできない可能性があります。 Codex ユーザーは、コードを使用する前にそれを確認する責任があります。 Jigsaw チームは、Project Jigsaw の目標はレビューの一部を自動化し、コード合成に Codex などの大規模な言語モデルを使用する開発者の生産性を向上させることだと説明しました。

Microsoft によれば、Jigsaw は、コードがコンパイルされるかどうかのチェック、エラー メッセージの処理、コードが開発者の期待どおりの出力を生成するかどうかのテストというプロセス全体を「完全に自動化」できるという。 「Jigsaw は、期待されるコードの英語の説明と I/O の例を入力として受け取ります。このようにして、入力と関連する出力をペアにして、出力 Python コードが提供された入力でコンパイルされ、期待される出力を生成するという品質保証を提供します。」

Microsoft は、ICSE 2022 の論文「Jigsaw: Large Language Models meet Program Synthesis」で、このアプローチを Python Pandas で評価しました。 Jigsaw を使用すると、ユーザーは予想される変換、入力データフレーム、および対応する出力データフレームの英語の説明を提供し、Jigsaw に予想されるコードを合成させることができます。

Jigsaw は英語のクエリを受け取り、適切なコンテキストで前処理して、大規模な言語モデルに入力できる入力を構築します。 Microsoft は実験で、Jigsaw が 30% の確率で正しい出力を作成できることを発見しました。コードが失敗した場合、後処理フェーズで修復プロセスが開始されます。

後処理中に、Jigsaw は 3 つの変換を適用してコードを修復します。これらの変化は、GPT-3 と Codex で観察された失敗パターンによって動機付けられました。 GPT-3 と Codex はどちらも同様の方法で失敗するため、これらの障害モードに対処するための Jigsaw の後処理はどちらにも役立ちます。

Microsoft は、さまざまなデータセットで Codex と Jigsaw (Codex を使用) を評価し、精度を測定しました。 Codex は初期状態で約 30% の精度を提供しますが、Jigsaw ではそれが 60% 以上に向上します。ユーザーからのフィードバックにより、80% 以上に向上できます。次に、彼らは Jigsaw の改善に取り組み続け、Python Pandas API のエクスペリエンスを他の API や他の言語に拡張することを目指し、自動化を通じてプログラマーの生産性を向上させる上で重要な役割を果たします。

詳細は公式ブログをご確認ください。

この記事はOSCHINAから転載したものです

この記事のタイトル: Microsoft が精度を 80% 以上に向上できる AI コードレビュー ツールをリリース

記事のURL: https://www.oschina.net/news/190978/microsoft-jigsaw-ai-code-fix

<<:  オピニオン:ソーシャルロボットはニューノーマルの中で急速に発展している

>>:  転移学習に関する最先端の研究:低リソース、ドメイン一般化、安全な転移

推薦する

AI を活用したハイパーオートメーションがビジネス効率を向上させる方法

AI とハイパーオートメーションに期待するのには十分な理由があります。AI には、人間の思考や関連す...

EasyDL Professional Notebookモデリング機能の詳しい説明

Jupyter Notebook は、開発やドキュメントの作成からコードの実行、結果の表示まで、コン...

マイクロソフトがOpenAIを救わなければならなかった6つの理由

メアリー・ブランスコム編纂者 | Yan Zheng生成型AIの寵児であるOpenAIは最近、混沌と...

機械学習が難しいのはなぜでしょうか?

[[187791]]機械学習は広く使用されており、チュートリアル、記事、オープンソース コードが至...

認知知能の実装が加速し、新世代のインテリジェント検索が誕生

[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

人工知能がインダストリー4.0における製造業に革命をもたらす

人工知能 (AI) という用語は、流行語の地位を超え、業界全体にわたる技術革新の基礎となっています。...

機械学習を利用してデータベースの運用と保守の問題を解決します

著者についてPing An Technology のデータベース チームの運用保守開発エンジニアであ...

アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

先週、私たちは、Float、Rai、Fei、Gyroscope などの人気のアルゴリズム ステーブル...

超速い! ByteDanceが配列推論エンジンLightSeqをオープンソース化

これは、Transformer や GPT などの複数のモデルの高速推論を完全にサポートする業界初の...

...

データから診断へ: 緑内障検出のためのディープラーニング手法

緑内障は、世界中の無数の人々に回復不可能な失​​明を引き起こす障害の主な原因です。緑内障自体は、眼と...

JVM チューニングの概要: 新世代のガベージ コレクション アルゴリズム

ガベージコレクションのボトルネック従来の世代別ガベージ コレクション方式では、ある程度、アプリケーシ...

あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、...

...