ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために使用されます。ニュース記事、ソース コード、多言語テキストなど、さまざまなコンテンツに使用できます。

大規模モデル (LLM) の出現により、特定のデータセットを微調整する従来の方法は適用できなくなりました。

LLM は抄録作成にどれほど効果があるのだろうかと疑問に思わずにはいられません。

この疑問に答えるために、北京大学の研究者たちは論文「要約は(ほぼ)死んだ」の中で詳細な議論を行った。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一ニュース、複数ニュース、対話、ソースコード、および言語間の要約) における LLM のパフォーマンスを評価しました。

LLM によって生成された要約、人間が書いた要約、および微調整されたモデルによって生成された要約を定量的および定性的に比較した結果、LLM によって生成された要約が人間の評価者に著しく好まれることが判明しました。

次に、過去 3 年間に ACL、EMNLP、NAACL、COLING で公開された要約方法に関する論文 100 件をサンプリングして調査したところ、論文の約 70% の主な貢献は要約方法を提案し、標準データセットでその有効性を検証することであることがわかりました。したがって、この記事では「要約は(ほぼ)死んだ」と述べています。

それにもかかわらず、研究者らは、より高品質の参照データセットや評価方法の改善の必要性など、この分野にはまだ課題が残っていると述べている。

論文アドレス: https://arxiv.org/pdf/2309.09558.pdf

方法と結果

この研究では最新のデータを使用して、それぞれ 50 個のサンプルで構成されるデータセットを構築しました。

例えば、単一ニュース、複数ニュース、会話の要約タスクを実行する場合、本論文で採用されている方法は、CNN/DailyMail や Multi-News で使用されるデータセット構築方法をシミュレートします。クロスリンガル要約タスクの場合、その戦略はZhuらによって提案された方法と一致しています。コード要約タスクに関しては、本論文ではBahramiらが提案した方法を採用しています。

データセットが構築されたら、次のステップは方法です。具体的には、この論文では、単一のニュースタスクには BART と T5 を使用し、複数のニュースタスクには Pegasus と BART を使用し、対話タスクには T5 と BART を使用し、言語間タスクには MT5 と MBART を使用し、ソースコードタスクには Codet5 を使用します。

この実験では、さまざまな要約の全体的な品質を比較するために人間の評価者を採用しました。結果は図 1 に示されています。LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約と微調整されたモデルによって生成された要約の両方よりも一貫して優れています。

このことから、従来完璧であると想定されてきた人間が書いた要約よりも、なぜ LLM が優れているのかという疑問が生じます。さらに、予備的な観察によれば、LLM によって生成された要約は、高度な流暢性と一貫性を示していることが示されています。

さらに、人間と LLM が生成した要約文における幻覚の問題を特定するために注釈者を募集しました。結果を表 1 に示します。GPT-4 によって生成された要約と比較すると、手動で作成された要約には、同じかそれ以上の幻覚の数が表示されています。複数のニュースやコードの要約などの特定のタスクでは、人間が書いた要約は事実の一貫性が著しく低いことが示されています。

手書きの要約とGPT-4で生成された要約における幻覚の割合を表2に示します。

この論文では、手書きの参考文献要約の問題点は流暢さに欠けることであることも判明しました。図 2 (a) に示すように、手動で作成された参考文献の要約では情報が不完全になることがあります。図 2 (b) では、手書きの参考文献の要約の一部が幻覚化されています。

また、微調整されたモデルによって生成された要約は固定された厳密な長さになる傾向があるのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整されたモデルによって生成された要約ではトピックのカバレッジが低くなりますが、LLM では要約を生成するときにすべてのトピックをキャプチャできます。

図 4 に示すように、大規模モデルに対する人間の好みのスコアは 50% を超えており、人々がその要約を強く好んでいることを示し、テキスト要約における LLM の能力を強調しています。

<<: 

>>:  IEEE: ディープフェイク技術のより深い理解

ブログ    
ブログ    

推薦する

メタバースの開発にはどのような重要な技術が必要ですか?

メタバースは、信頼できる資産価値とアイデンティティ認証を備えた仮想アクティビティを実行するためのプラ...

デジタルトランスフォーメーションとは、アルゴリズムがすべてを制御する仮想世界なのでしょうか?

5G建設の展開に伴い、「デジタルトランスフォーメーション」という言葉も注目を浴び、さまざまな展示会...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

...

...

MIT、ビデオ遅延防止に新たなAI技術を採用

動画の途切れや解像度の低さは視聴者の視聴体験を著しく低下させ、広告主の利益にも悪影響を及ぼします。現...

推奨システムにおけるTensorFlowの分散トレーニング最適化の実践

著者 | Yifan、Jiaheng、Zhengshao などMeituan の高度にカスタマイズさ...

大学では人工知能を専攻できるコースはありますか?まだ道のりは長い

教育省は最近、「高等教育機関向け人工知能イノベーション計画」を発表し、「人工知能分野における人材育成...

メルセデス・ベンツCIO:デジタル変革には人工知能の推進力が必要

メルセデス・ベンツは長年、機械学習と従来の人工知能に依存してきました。しかし、現在では、たとえば M...

...

アルゴリズムのインテリジェントなアップグレードにより、将来のデジタルライフはより明るくなります

[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...

業界の競争が激化する中、人工知能が経済のデジタル化をどう推進するかを見てみましょう。

新しいインフラストラクチャの配置が加速するにつれて、5G、モノのインターネット、クラウドコンピューテ...

...

...

レースをしながら「機械学習」を学ぶ? 380万人が観ていなかったら、信じられなかったでしょう。

[[440972]] 「秋名山には人が少なく、ドライバー同士が競争することが多い。今は自動運転車が...