ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために使用されます。ニュース記事、ソース コード、多言語テキストなど、さまざまなコンテンツに使用できます。

大規模モデル (LLM) の出現により、特定のデータセットを微調整する従来の方法は適用できなくなりました。

LLM は抄録作成にどれほど効果があるのだろうかと疑問に思わずにはいられません。

この疑問に答えるために、北京大学の研究者たちは論文「要約は(ほぼ)死んだ」の中で詳細な議論を行った。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一ニュース、複数ニュース、対話、ソースコード、および言語間の要約) における LLM のパフォーマンスを評価しました。

LLM によって生成された要約、人間が書いた要約、および微調整されたモデルによって生成された要約を定量的および定性的に比較した結果、LLM によって生成された要約が人間の評価者に著しく好まれることが判明しました。

次に、過去 3 年間に ACL、EMNLP、NAACL、COLING で公開された要約方法に関する論文 100 件をサンプリングして調査したところ、論文の約 70% の主な貢献は要約方法を提案し、標準データセットでその有効性を検証することであることがわかりました。したがって、この記事では「要約は(ほぼ)死んだ」と述べています。

それにもかかわらず、研究者らは、より高品質の参照データセットや評価方法の改善の必要性など、この分野にはまだ課題が残っていると述べている。

論文アドレス: https://arxiv.org/pdf/2309.09558.pdf

方法と結果

この研究では最新のデータを使用して、それぞれ 50 個のサンプルで構成されるデータセットを構築しました。

例えば、単一ニュース、複数ニュース、会話の要約タスクを実行する場合、本論文で採用されている方法は、CNN/DailyMail や Multi-News で使用されるデータセット構築方法をシミュレートします。クロスリンガル要約タスクの場合、その戦略はZhuらによって提案された方法と一致しています。コード要約タスクに関しては、本論文ではBahramiらが提案した方法を採用しています。

データセットが構築されたら、次のステップは方法です。具体的には、この論文では、単一のニュースタスクには BART と T5 を使用し、複数のニュースタスクには Pegasus と BART を使用し、対話タスクには T5 と BART を使用し、言語間タスクには MT5 と MBART を使用し、ソースコードタスクには Codet5 を使用します。

この実験では、さまざまな要約の全体的な品質を比較するために人間の評価者を採用しました。結果は図 1 に示されています。LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約と微調整されたモデルによって生成された要約の両方よりも一貫して優れています。

このことから、従来完璧であると想定されてきた人間が書いた要約よりも、なぜ LLM が優れているのかという疑問が生じます。さらに、予備的な観察によれば、LLM によって生成された要約は、高度な流暢性と一貫性を示していることが示されています。

さらに、人間と LLM が生成した要約文における幻覚の問題を特定するために注釈者を募集しました。結果を表 1 に示します。GPT-4 によって生成された要約と比較すると、手動で作成された要約には、同じかそれ以上の幻覚の数が表示されています。複数のニュースやコードの要約などの特定のタスクでは、人間が書いた要約は事実の一貫性が著しく低いことが示されています。

手書きの要約とGPT-4で生成された要約における幻覚の割合を表2に示します。

この論文では、手書きの参考文献要約の問題点は流暢さに欠けることであることも判明しました。図 2 (a) に示すように、手動で作成された参考文献の要約では情報が不完全になることがあります。図 2 (b) では、手書きの参考文献の要約の一部が幻覚化されています。

また、微調整されたモデルによって生成された要約は固定された厳密な長さになる傾向があるのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整されたモデルによって生成された要約ではトピックのカバレッジが低くなりますが、LLM では要約を生成するときにすべてのトピックをキャプチャできます。

図 4 に示すように、大規模モデルに対する人間の好みのスコアは 50% を超えており、人々がその要約を強く好んでいることを示し、テキスト要約における LLM の能力を強調しています。

<<: 

>>:  IEEE: ディープフェイク技術のより深い理解

ブログ    
ブログ    
ブログ    

推薦する

AI バイアスは、偏見のない視点を必要とする未解決の問題でしょうか?

[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...

...

...

...

Qinglang RoboticsがCIIEの「ブラックテクノロジー」を体験していただきます

浦江の潮が満ち、第3回中国国際輸入博覧会が開幕!「人工心肺」「88カラットのブラックダイヤモンド」「...

人工知能は今後10年間で世界の成長を12%押し上げるだろう

[[206942]]国内外の権威ある20の機関のEconomic Information Daily...

初のユニバーサル音声翻訳システム! Meta が SeamlessM4T をオープンソース化: 470,000 時間のトレーニング データを使用して 100 言語のマルチモーダル翻訳をサポート

テキストベースの翻訳システムは大きな進歩を遂げています。初期の単語マッチングや文法規則から、ニューラ...

...

AI 生成コンテンツには著作権がありますか?裁判所はこう判決した

[[312663]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

アリババに採用された中国の高レベル科学者がAIがもたらす想像力の空間について語る

彼はかつてアマゾンの中国トップレベルの科学者であり、1年前に世界の小売業界にセンセーションを巻き起こ...

AIはもはや派手なものではなく、日常生活にもっと関連している

2020年に入り、業界におけるAIの発展は単なる技術革新やブレークスルーの範囲を超え、製品と業界の統...

スタートアップがAIを活用してデータ駆動型マーケティング戦略を開発する方法

データ駆動型マーケティング戦略は組織の成長と発展に重要な役割を果たしており、組織はデータ駆動型マーケ...

...

Facebookのスマートスピーカー「フィオナ」と「アロハ」が今月下旬に発売される

Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...

...