AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコードを記述できますが、最新の研究は驚くべきものです。

米国のパデュー大学が最近実施した調査によると、ChatGPT が StackOverflow に提出したソフトウェア開発に関する数百の質問に対する回答の半分以上が間違っていたそうです。

研究者らはまた、AIシステムによって生成された回答に多少の誤りが含まれていたにもかかわらず、34%のユーザーがStack Overflow上で人間のユーザーが投稿した回答よりもChatGPTによる回答を好んだことも発見した。

専門家は、開発者がプロ​​グラミングの問題を解決するために ChatGPT に依存し続けると、専門家としての評判が危険にさらされると述べています。

ChatGPTはプログラミングの質問に半分以上のエラーで答えます

ChatGPTは、2022年11月にOpenAIによってリリースされたチャットボットです。その背後にある主要なテクノロジーはGPT大規模言語モデルであり、その基礎モデルは、開発者に広く使用されているMicrosoft GithubコーディングアシスタントであるCopilotの作成にも使用されています。

パーデュー大学の研究は、オンラインで定期的に共有される質問に対する回答を提供するための ChatGPT の特性と使いやすさを包括的に調査した初めての研究です。チームはChatGPTに、以前にStack Overflowに投稿された517の質問に答えてもらい、正解を比較したところ、エラー率が半分以上であることを発見しました。

ChatGPTが世界中で人気を博すにつれ、Stack Overflowは今年初めにAI生成の返信を禁止した。当時、Stack Overflow は ChatGPT の回答を「表面的には良いが、間違いだらけ」と評した。

「ChatGPTやその他の生成AI技術によって生成された回答は、質問をして正しい答えを求めるユーザーにとって有害となる可能性がある」と当時、Stack Overflowの広報担当者は説明した。

OpenAI はリリース以来、ChatGPT プラットフォームとその基盤モデルに段階的な改善を加えてきましたが、GPT-4 に関しては、その応答は依然として不正確です。 Stack Overflow はその後 AI 技術を採用しましたが、それはコンテンツの分類のためだけに行われました。

パデュー大学の調査によると、ChatGPT が出した回答の半分以上は質問の概念を正しく理解していなかったために間違っていたことが判明しました。 「ChatGPTは問題を理解することができたとしても、その解決法は理解できなかった」と研究者らは報告書に記している。「問題の間違った部分に焦点を当てたり、問題の微妙な詳細を完全に理解せずに高レベルの解決策を提示したりすることが多々あった」

研究者らはまた、ChatGPT の推論能力にも限界があり、その結果を考慮せずに解決策、コード、数式を作成していることも発見しました。

OpenAI はこの欠点を認識していると伝えられている。これに対応して、OpenAIはChatGPTにコードインタープリターを追加し、AIがサンドボックスで作成したコードを実行してエラーをチェックし、出力の品質を評価し、最終的な応答を検証し、変更を加えて、より正確なソリューションを提供できるようにしました。ただし、この機能はまだベータ版であり、ChatGPT Plus のユーザーのみが利用できます。

ChatGPTの回答に頼っている開発者は危険にさらされている

しかし、ChatGPT には明らかな欠点があり、応答の 77% が人間の応答よりも長文であるという事実にもかかわらず、多くのユーザーはプログラミングに関する差し迫った質問に答えるために今でも ChatGPT に頼っています。

研究者らは、「39.34%のユーザーが、その包括性と明確な言語スタイルにより、ChatGPTの回答を依然として好んでいる。私たちの研究結果は、一見正しいように見えるChatGPTの回答のリスクをユーザーに認識させながら、ChatGPTのエラーを慎重にチェックして修正する必要があることを示している」と主張した。

ITコンサルティングおよびサービスプロバイダーであるDoherty Associatesのエンタープライズアーキテクチャディレクターであるオーウェン・モリス氏は、AIの使用には多くの利点があるが、欠点もあるため、ユーザーはChatGPTなどのプラットフォームを使用する前に常にそれを考慮する必要がある、と述べています。

「ChatGPT のようなツールは、トレーニングに使用したデータ (インターネットやその他のソースから収集したデータを含む) に基づいて洞察を提供しますが、バイアスも保持されるため、正確性と付加価値を得るには人間の関与が不可欠です」と同氏は述べました。「モデルの適用性を高めるために、独自のチームを活用して、独自のドメイン固有の知識とデータを提供できるようにすることを忘れないでください。」

彼は、ソフトウェア開発に関してChatGPTが提供する回答を批判的に評価する人間による監視がなければ、開発者は開発作業に不正確な情報や有害な情報を取り入れてしまう大きなリスクに直面し、プログラミングの品質や専門家としての評判にさえ影響が出るだろうと警告した。

<<:  TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

>>:  OpenAIは米国で以前に申請していた「GPT-5」の商標を中国で登録申請した。

ブログ    
ブログ    
ブログ    

推薦する

AIはデータセキュリティをどう変えるのか

サイバーセキュリティにおける人工知能 (AI) は、データセキュリティにとって良いものでしょうか、そ...

中国の新世代人工知能の新たなハイライトは何ですか?

[[255971]] 「インターネット+」から「AI+」まで、人工知能技術は経済と社会の発展に大き...

OpenAI が ChatGPT にマルチモーダル入力機能を追加しました。ご存知ですか?

OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...

...

OpenAIがヴィンセントのビデオモデル「Sora」をリリース。一般人がその恩恵を最大化するにはどうすればいいか?

2022年11月30日のChatGPTのリリース以来、OpenAIが新しい機能をリリースするたびに...

無人スーパー、無人運転、無人宅配が実現すれば、職を失いそうな一般人はどうするのだろうか。

人工知能などの技術の発展により、無人技術がますます多く登場しています。 2030 年までに、8 億人...

アルゴリズムの視覚化: 理解しにくいコードをゴッホの星空に描く

厳選記事 | 呉嘉楽翻訳 | 黄年校正 | フェン・チェン、ヤオ・ジアリンマイク・ボストック出典 |...

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう!

工業情報化部が突然、人工知能に関するもう一つの重要な文書を発行しました!文書では、2018年から2...

AIは雇用を奪うのか、それとも雇用を生み出すのか?

人工知能は、職場環境で参照される場合、複雑な感情と視点をもたらします。同僚、友人、または見知らぬ人に...

AIの頂点:プレミアムディープラーニングGPU、KG 7204-R5

人工知能(AI)の分野といえば、「人間対機械」ゲームにおける「AlphaGo」という名の名を挙げざる...

「AI+教育」は偽のトリックか本物のスキルか?本質は依然としてAIの能力のテスト

近年、教育業界の資金のほとんどは「AI+教育」を追い求めています。現在、「AI+教育」分野では、さま...

...

人工知能はデータの管理と処理を改善する素晴らしい方法です

初期の AI マシンは不完全であり、明確に定義された指示に従ってのみ動作できました。しかし、コンピュ...

米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止

数日前、テンセントの製品に違反があり、合計4回に分けて報告されました。工業情報化部はテンセントに対し...