ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用

ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用
論文のデータセットとコードはオープンソース化されています: https://zenodo.org/record/3373409#.YrpiEBVBxHW。

この論文の目的は、ソースコードの中間表現を回避し、ソースコードを画像として表現し、コードの意味情報を直接抽出して、欠陥予測のパフォーマンスを向上させることです。

まず、以下に示す動機の例をご覧ください。 File1.java と File2.java の両方に 1 つの if ステートメント、2 つの for ステートメント、および 4 つの関数呼び出しが含まれていますが、コードの意味と構造上の特徴は異なります。ソース コードを画像に変換すると、異なるコードを区別するのに役立つかどうかを検証するために、著者らは実験を行いました。ソース コードを文字の ASCII 10 進数に従ってピクセルにマッピングし、ピクセル マトリックスに配置して、ソース コードの画像を取得しました。著者らは、ソースコードイメージ間に相違点があることを指摘しています。

図1 動機の例

この記事の主な貢献は次のとおりです。

コードを画像に変換し、そこから意味情報と構造情報を抽出します。

自己注意メカニズムと転移学習を組み合わせて欠陥予測を実現するエンドツーエンドのフレームワークが提案されています。

この記事で提案されているモデル フレームワークは図 2 に示されており、ソース コードの可視化とディープ トランスファー ラーニング モデリングの 2 つの段階に分かれています。

図2 フレームワーク

1. ソースコードの視覚化

この記事ではソースコードを 6 つの画像に変換しており、そのプロセスは図 3 に示されています。ソース コード文字の 10 進 ASCII コードを 8 ビットの符号なし整数ベクトルに変換し、これらのベクトルを行と列に配置して、画像マトリックスを生成します。 8 ビットの整数はグレースケール レベルに直接対応します。元のデータセットが小さいという問題を解決するために、著者は記事の中で、色の強調に基づくデータセット拡張方法を提案しました。R、G、Bの3つの色チャネルの値を並べて組み合わせ、6つのカラー画像を生成します。これはかなり混乱します。チャネル値を変更すると、意味情報と構造情報が変更になるはずですよね?しかし、著者は図 4 に示すように脚注でそれを説明しています。

図3 ソースコードの可視化プロセス

図4 記事脚注2

2. 深層転移学習モデリング

この記事では、DAN ネットワークを使用して、ソース コードの意味情報と構造情報を取得します。モデルの重要な情報を表現する能力を強化するために、著者らは元の DAN 構造に注意レイヤーを追加しました。トレーニングとテストのプロセスを図 5 に示します。ここで、conv1 ~ conv5 は AlexNet からのものであり、4 つの完全接続層 fc6 ~ fc9 は分類器として使用されます。著者は、新しいプロジェクトではディープラーニング モデルのトレーニングに大量のラベル付きデータが必要であり、これは難しいと述べました。そこで、著者はまずImageNet 2012で事前学習済みモデルを学習し、その事前学習済みモデルのパラメータを初期パラメータとしてすべての畳み込み層を微調整し、コード画像とImageNet 2012の画像の差を小さくしました。

図5 トレーニングとテストのプロセス

3. モデルのトレーニングと予測

ソース プロジェクトのラベル付きコードとターゲット プロジェクトのラベルなしコードのコード イメージを生成し、それらを同時にモデルに入力します。2 つのプロジェクトは畳み込み層と注意層を共有して、それぞれの特徴を抽出します。完全に接続されたレイヤーでソースとターゲット間の MK-MDD (マルチカーネルバリアント最大平均不一致) を計算します。ターゲットにはラベルがないため、ソースのクロスエントロピーのみが計算されます。モデルは、損失関数に沿ったミニバッチ確率的勾配降下法を使用してトレーニングされます。各 <ソース、ターゲット> ペアについて、500 エポックのうち、最良の F 値に基づいて 1 つのエポックが選択されます。

実験部分では、著者は PROMISE データ ウェアハウス内のすべてのオープン ソース Java プロジェクトを選択し、そのバージョン番号、クラス名、およびバグがあるかどうかを示すラベルを収集しました。バージョン番号とクラス名に従って、GitHub からソースコードをダウンロードします。最終的に、10 個の Java プロジェクトからのデータが収集されました。データセットの構造を図 6 に示します。

図6 データセットの構造

プロジェクト内の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。

プロジェクト間の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。

まとめると、この論文は 2 年前に発表されましたが、そのアイデアはまだ比較的新しいものです。AST などの一連のコード中間表現を回避し、コードを直接画像抽出機能に変換します。しかし、まだ混乱しています。コードから変換された画像には、ソースコードのセマンティクスと構造情報が本当に含まれているのでしょうか?あまり説明できない気がします、ハハハ。後で実験分析を行う必要があります。

<<:  人工知能は医療の未来をどう変えるのか

>>:  あなたは本当に3Dプリントを理解していますか?

ブログ    
ブログ    
ブログ    

推薦する

...

...

ベイジアンアルゴリズムは「アプリチケット詐欺」を打破する良い方法となるだろう

最近、世間を騒がせた360 Appランキング操作事件とその背後にある闇産業チェーンの出現により、Ap...

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

[51CTO.com からのオリジナル記事] インターネットビジネスの発展に伴い、大量のデータが生...

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

「ハイエンド」オープンソースでは、最も単純なリリース方法が採用されることが多いです。昨日、Mistr...

Python 機械学習の実践: クレジットカード詐欺検出

ストーリーの背景:元のデータは個人の取引記録ですが、データ自体のプライバシーを考慮して、元のデータは...

高校時代の位相除算と位相減算のアルゴリズムについて

[[356850]]プログラミングの本質はアルゴリズムから来ており、アルゴリズムの本質は数学から来て...

Python の高度なアルゴリズムとデータ構造: treap を使用してデュアル インデックスを実装する (パート 1)

\上記で紹介したヒープ構造では、データを部分的にしかソートできません。つまり、一部の要素のソートし...

...

上海の疫病対策において人工知能は何を果たしたのか?

4月8日、「上海デジタル変革リーディンググループオフィス」が主導し、上海スマートシティ発展研究所が...

人工知能やビッグデータ製品の開発において、特に注意すべき点は何でしょうか?

近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...

...

人工知能が将来の保険金請求に与える影響

保険業界におけるデータ分析の利点は一般的に知られています。調査レポートでは、ビッグデータサプライヤー...