AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコードを記述できますが、最新の研究は驚くべきものです。

米国のパデュー大学が最近実施した調査によると、ChatGPT が StackOverflow に提出したソフトウェア開発に関する数百の質問に対する回答の半分以上が間違っていたそうです。

研究者らはまた、AIシステムによって生成された回答に多少の誤りが含まれていたにもかかわらず、34%のユーザーがStack Overflow上で人間のユーザーが投稿した回答よりもChatGPTによる回答を好んだことも発見した。

専門家は、開発者がプロ​​グラミングの問題を解決するために ChatGPT に依存し続けると、専門家としての評判が危険にさらされると述べています。

ChatGPTはプログラミングの質問に半分以上のエラーで答えます

ChatGPTは、2022年11月にOpenAIによってリリースされたチャットボットです。その背後にある主要なテクノロジーはGPT大規模言語モデルであり、その基礎モデルは、開発者に広く使用されているMicrosoft GithubコーディングアシスタントであるCopilotの作成にも使用されています。

パーデュー大学の研究は、オンラインで定期的に共有される質問に対する回答を提供するための ChatGPT の特性と使いやすさを包括的に調査した初めての研究です。チームはChatGPTに、以前にStack Overflowに投稿された517の質問に答えてもらい、正解を比較したところ、エラー率が半分以上であることを発見しました。

ChatGPTが世界中で人気を博すにつれ、Stack Overflowは今年初めにAI生成の返信を禁止した。当時、Stack Overflow は ChatGPT の回答を「表面的には良いが、間違いだらけ」と評した。

「ChatGPTやその他の生成AI技術によって生成された回答は、質問をして正しい答えを求めるユーザーにとって有害となる可能性がある」と当時、Stack Overflowの広報担当者は説明した。

OpenAI はリリース以来、ChatGPT プラットフォームとその基盤モデルに段階的な改善を加えてきましたが、GPT-4 に関しては、その応答は依然として不正確です。 Stack Overflow はその後 AI 技術を採用しましたが、それはコンテンツの分類のためだけに行われました。

パデュー大学の調査によると、ChatGPT が出した回答の半分以上は質問の概念を正しく理解していなかったために間違っていたことが判明しました。 「ChatGPTは問題を理解することができたとしても、その解決法は理解できなかった」と研究者らは報告書に記している。「問題の間違った部分に焦点を当てたり、問題の微妙な詳細を完全に理解せずに高レベルの解決策を提示したりすることが多々あった」

研究者らはまた、ChatGPT の推論能力にも限界があり、その結果を考慮せずに解決策、コード、数式を作成していることも発見しました。

OpenAI はこの欠点を認識していると伝えられている。これに対応して、OpenAIはChatGPTにコードインタープリターを追加し、AIがサンドボックスで作成したコードを実行してエラーをチェックし、出力の品質を評価し、最終的な応答を検証し、変更を加えて、より正確なソリューションを提供できるようにしました。ただし、この機能はまだベータ版であり、ChatGPT Plus のユーザーのみが利用できます。

ChatGPTの回答に頼っている開発者は危険にさらされている

しかし、ChatGPT には明らかな欠点があり、応答の 77% が人間の応答よりも長文であるという事実にもかかわらず、多くのユーザーはプログラミングに関する差し迫った質問に答えるために今でも ChatGPT に頼っています。

研究者らは、「39.34%のユーザーが、その包括性と明確な言語スタイルにより、ChatGPTの回答を依然として好んでいる。私たちの研究結果は、一見正しいように見えるChatGPTの回答のリスクをユーザーに認識させながら、ChatGPTのエラーを慎重にチェックして修正する必要があることを示している」と主張した。

ITコンサルティングおよびサービスプロバイダーであるDoherty Associatesのエンタープライズアーキテクチャディレクターであるオーウェン・モリス氏は、AIの使用には多くの利点があるが、欠点もあるため、ユーザーはChatGPTなどのプラットフォームを使用する前に常にそれを考慮する必要がある、と述べています。

「ChatGPT のようなツールは、トレーニングに使用したデータ (インターネットやその他のソースから収集したデータを含む) に基づいて洞察を提供しますが、バイアスも保持されるため、正確性と付加価値を得るには人間の関与が不可欠です」と同氏は述べました。「モデルの適用性を高めるために、独自のチームを活用して、独自のドメイン固有の知識とデータを提供できるようにすることを忘れないでください。」

彼は、ソフトウェア開発に関してChatGPTが提供する回答を批判的に評価する人間による監視がなければ、開発者は開発作業に不正確な情報や有害な情報を取り入れてしまう大きなリスクに直面し、プログラミングの品質や専門家としての評判にさえ影響が出るだろうと警告した。

<<:  TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

>>:  OpenAIは米国で以前に申請していた「GPT-5」の商標を中国で登録申請した。

ブログ    

推薦する

人工知能は研究をどのように変えているのでしょうか?

人工知能 (AI) は研究プロセスにおいてますます重要な役割を果たしています。 AI ベースのアルゴ...

ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進

[51CTO.comより引用] デジタル時代において、ビッグデータと人工知能は企業のビジネス成長を推...

データ分析 VS アルゴリズムモデル、どのように作業を分割し、効率的に連携するか?

[[438791]]この記事はWeChat公式アカウント「地道学院」から転載したもので、著者は地道...

人工知能はあらゆる点で人間よりも優れているのに、なぜ人間の言っていることを理解できないのでしょうか?

9月8日、英国の新聞「ガーディアン」は、熱心な読者でも記者でもなく、サンフランシスコの人工知能スタ...

デジタル産業を支援し、インテリジェントな未来をつなぐ――西安航空基地企業「ファーウェイ参入」デジタル変革社長クラス

[51CTO.comからのオリジナル記事]現在、疫病と政治環境の影響により、多くの不確定要素が重なり...

新浪微博廖博:WAICリアルタイムストリームコンピューティングプラットフォームの成長と発展

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

ソフトウェアプログラマー試験: 関数の最大値を見つけるための標準的な遺伝的アルゴリズム

Dim N2 (30) Longは2の累乗されたデータを格納するために使用されるDim Script...

将来のAIアプリケーションには、より高速でスマートな通信インフラストラクチャが必要

[[409599]]インターネット接続が4Gから5Gへと高速化していく一方で、利用可能な帯域幅が限ら...

マインドタイピングがネイチャーの表紙に登場! 99%以上の正確さで1分間に90文字を書く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Pythonアルゴリズムを使用して取引する方法

投資管理会社でシステム開発エンジニアとして働いていたとき、定量金融で成功するには、数学、プログラミン...

...

過大評価されすぎた人工知能バブルは、どのように崩壊するのでしょうか。

実は、似たような事件は以前にも起きている。江蘇省衛星テレビの番組「The Brain」では、百度脳が...

人工知能

[[200702]] 250年以上にわたり、技術革新は経済発展の根本的な原動力となってきました。これ...

大型模型のレイアウトは何度も変わります!

ChatGPT の Android バージョンが登場します。 OpenAI は今年 5 月に早くも...

デジタルツインがディープラーニングのデータ格差を埋める

企業がデータを活用するディープラーニング (DL) プロジェクトに着手する場合、そのデータを保護する...