ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Overflow のソフトウェア エンジニアリングの質問に対する回答の詳細な分析」と題する研究レポートでは、ChatGPT がソフトウェア プログラミングの質問に答える際のエラー率が半分以上であることが指摘されています。

研究チームは、517 件の Stack Overflow の質問に対する ChatGPT の回答を分析し、ChatGPT の回答の正確性、一貫性、包括性、簡潔性を評価しました。同時に、これらの回答に対して大規模な言語分析とユーザー調査を実施し、ChatGPT 回答の特徴を言語的および人文的な側面から理解しました。

結果によると、ChatGPT の回答の 52% は誤りであり、77% は長すぎることがわかりました。しかし、それにもかかわらず、39.34% の人が、その包括性と明確な言語スタイルを考慮して、ChatGPT の回答を選択しました。

徹底的な手動分析により、ChatGPT の回答には多数の概念的および論理的エラーがあることが明らかになりました。「ChatGPT は質問の基本的な文脈を理解できなかったため、多くの回答が間違っていました。」言語分析の結果、ChatGPT の応答は非常に形式的で、否定的な感情やリスクを描写することはほとんどないことがわかりました。「ChatGPT が『間違いなくお手伝いできます』や『これは間違いなく解決できます』などの文を挿入するのを何度も観察しました。」

「私たちの研究結果は、ChatGPTのエラーを注意深く確認して修正するとともに、一見正しいように見えるChatGPTの回答がもたらすリスクをユーザーに認識させる必要があることを示唆しています。」

研究者たちは、ユーザーが ChatGPT の回答のエラーに気付くのは、エラーが非常に明白な場合のみであることを観察しました。しかし、エラーの検証が容易でなかったり、外部の IDE やドキュメントが必要な場合、ユーザーはエラーを認識できなかったり、答えが間違っていることを過小評価したりする傾向があります。 「丁寧な言葉遣い、教科書通りの明確な回答、包括的で関連性のある回答により、完全に間違った回答が正しいように感じられることがあります。」

パデュー大学の博士課程の学生で、論文の著者の一人であるサミア・カビール氏は、回答者はStack Overflowの回答よりも、不正確で長いChatGPTの回答を好んだとThe Registerに語った。この現象にはいくつかの理由があります。

主な理由の 1 つは、ChatGPT の回答が非常に詳細であることです。多くの場合、参加者は回答から有益な情報を得られるのであれば、回答の長さを気にしませんでした。さらに、ポジティブな感情と丁寧な回答も他の 2 つの要素です。

参加者は ChatGPT の回答が有益だと感じた場合、間違いを無視しました。 ChatGPT が洞察に富んだ情報を自信を持って伝える方法 (たとえそれが間違っていても) はユーザーの信頼を獲得し、間違った回答を好むようになります。

研究者による ChatGPT の回答と Stack Overflow の回答の言語分析では、ボットの応答は「より形式的で、より分析的な思考を表現し、より分析的な思考を表現し、目標達成に向けてより多くの努力を注ぎ、否定的な感情をあまり表現していない」ことが示されました。感情分析の結果、ChatGPT の回答は Stack Overflow の回答よりも「より肯定的な感情」を表現していると結論付けられました。

「この調査の調査結果と観察に基づいて、Stack Overflow はコメントや回答の有害性と否定性を検出し、感情と礼儀正しさを向上させる効果的な方法を採用できると提案します。また、Stack Overflow は回答の発見可能性を向上させて、役立つ回答を見つけやすくしたいと考えているかもしれません。さらに、Stack Overflow は、回答者が回答を作成するのに役立つ、たとえばステップバイステップで詳細に焦点を当てた方法など、より具体的なガイドラインを提供する必要があるかもしれません。」

この論文では、この研究は、さまざまな種類の概念的および事実上の誤りを特定し、削減する方法についてのさらなる研究を促進することも目的としていると指摘しています。 「この研究が、特にSEの分野において、機械が生成した回答の透明性と不正確さの伝達に関する研究をさらに促進することを期待しています。」

<<:  AIに人間の思考や行動を模倣させる方法

>>:  「磁石の可能性が高い!」プリンストン大学のLK-99研究は北京大学の結果を支持し、38ページの論文は銅が鉛の代替品として現実的ではない可能性を示唆している

ブログ    
ブログ    
ブログ    

推薦する

...

1 つのバグが原因で 200 億ドルの損失が発生しました。ビジネス異常検出システムを構築するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...

AIが金融犯罪を予測、検出、防止する方法

調査によると、金融詐欺は個人や企業に多大な損失をもたらします。銀行は、フィンテックと競争するために機...

教育における人工知能は2032年までに882億ドルに達する

教育革命が起こっており、人工知能は2032年までに882億ドルに達すると予想されています。人工知能(...

AIユニコーンがIPOに群がり、資本市場を刺激。シナリオアプリケーションは複数の場所で爆発的に増加する可能性がある

美景記者:李紹廷 美景編集者:温多2020年を振り返ると、新型コロナウイルス感染症の突然の流行は間違...

「AI+コンピューティングパワー」が海外企業に「活力」を与えた

海外に進出する企業は、さまざまな市場のニーズをより正確に理解し、適応するために、大量の国境を越えたデ...

...

TorchCVは、北京大学の学生が開発したPyTorchベースのCVモデルフレームワークです。

機械学習によってもたらされたあらゆる破壊的技術の中でも、コンピュータービジョンの分野は業界関係者と学...

「ウイルス」ではなく「情報」を広めよう!プログラマーがAIを使って「手を洗う」を500以上の言語に翻訳

[[321195]]ビッグデータダイジェスト制作ダニエル・ホワイトナック編集者: lin、Cao P...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

...

...

ロボットが密かに子供を産んだ?科学者たちも私も衝撃を受けました。

[[438325]]最近このニュースを見たことがあるだろうか。 「ロボットが赤ちゃんを産みました。...

MIUI 10の最後の開発バージョンが間もなくリリースされます。MIUI 11も間もなく登場します。

8月22日、MIUIは、より良い最適化効果を実現し、Miファンに優れたシステム体験をもたらすために...

AI はビジネスのやり方を永久に変えるのでしょうか?

Google、Facebook、Twitterなど、世界中の大手テクノロジー企業が人工知能ソリュー...