誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

EMNLP は自然言語処理の分野におけるトップカンファレンスの 1 つです。EMNLP 2023 は 12 月 6 日から 10 日までシンガポールで開催されます。

今年の ChatGPT の人気により、ビッグモデルと NLP の概念が推進されたため、EMNLP 2023 の提出論文数は ACL 2023 をわずかに上回る 5,000 件近くに達しました。

採択率で見ると、長文論文の採択率は23.3%、短文論文の採択率は14%、全体の採択率は21.3%でした。この数字は、EMNLP 2022 の 20% よりわずかに高いです。

EMNLPの現地議長であるLi Haizhou氏が発表したPPTから、この会議の発展プロセスを理解することができます。

これらの論文データに加えて、今年のEMNLP受賞論文も大きな注目を集めました。

EMNLP 2023 では、最優秀ロングペーパー、最優秀ショートペーパー、最優秀テーマペーパー、最優秀デモペーパー、最優秀インダストリーペーパーの各賞が授与され、また、さまざまなトラックでいくつかの優れたペーパーが受賞しました。

同時に、EMNLP 2024が2024年11月12日から16日までフロリダ州マイアミで開催されることが正式に発表されました。

EMNLP 2023 ベストロングペーパー

論文タイトル: ラベル語はアンカーである: 文脈内学習を理解するための情報フローの観点


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.609.pdf
  • 機関: 北京大学、テンセントWeChat AI

概要: コンテキスト学習は、大規模言語モデル (LLM) にさまざまなタスクを実行するデモンストレーション例を提供するため、有望な機械学習アプローチとなります。ただし、LLM が提供されたコンテキストからどのように学習するかという基本的なメカニズムはまだ調査中です。

そこで、北京大学とテンセントWeChat AIの研究者たちは、情報の流れの観点から文脈学習の動作メカニズムを調査しました。研究結果によると、デモンストレーション例のラベル語はアンカーの役割を果たしており、それは次の 2 つの側面で現れています。

  • 意味情報は、浅い計算層での処理中にラベル単語表現に集約されます。
  • ラベルワードに統合された情報は、LLM の最終予測の参照として機能します。

これらの調査結果に基づいて、研究者らは、文脈学習のパフォーマンスを向上させるアンカー再重み付け法、推論を加速するためのデモンストレーション圧縮技術、およびGPT2-XLにおける文脈学習エラーを判断するための分析フレームワークを提案しました。

研究者によって提唱された仮説。浅い層では、ラベル ワードがデモンストレーションから情報を収集して、より深い処理のための意味表現を形成します。深い層では、ラベル ワードからこの情報を抽出して利用し、最終的な予測を形成します。

この研究の結果は有望な応用が可能であり、文脈学習の動作メカニズムを改めて検証し、将来の研究への道を開くものである。

GPT2-XL と GPT-J でのさまざまな圧縮方法の結果の比較。

EMNLP 2023 ベストショートペーパー

論文タイトル: 信頼度に基づく枝刈りによる高速最小ベイズリスクデコード


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.767.pdf
  • 機関: ケンブリッジ大学

概要: 最小ベイズリスク (MBR) デコードは、モデル分布上の効用関数に対して最も高い期待効用を持つ仮説を出力します。条件付き言語生成問題、特にニューラル機械翻訳では、人間と自動の両方の評価においてビームサーチの精度を上回ります。ただし、標準的なサンプリングベースの MBR アルゴリズムの計算コストは​​ビーム検索よりもはるかに高く、多数のサンプルとユーティリティ関数への二次呼び出しが必要になるため、適用範囲が制限されます。

この論文では、ブートストラップ サンプリングから得られた信頼度推定値が最高の効用を持つ可能性が低い仮説を削減しながら、効用を推定するために使用されるサンプル数を徐々に増やす MBR アルゴリズムを紹介します。標準の MBR と比較すると、この方法では必要なサンプル数が少なくなり、ユーティリティ関数の呼び出し回数が大幅に少なくなり、同等の精度が達成されます。

アルゴリズム 2: 信頼度ベースのプルーニング関数。

研究者らは、chrF++ と COMET を有用性/評価指標として使用し、3 つの言語ペアでの実験でこの方法の有効性を実証しました。

実験結果。

EMNLP 2023 ベストテーマペーパー

論文タイトル: このタイトルを無視して HackAPrompt: グローバル プロンプト ハッキング コンテストを通じて LLM の体系的な脆弱性を明らかにする


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.302.pdf
  • 機関: メリーランド大学、Mila、Towards AI、スタンフォード大学など。

概要: 大規模言語モデル (LLM) は、チャットボットやライティング アシスタントなど、ユーザーが直接参加するインタラクティブな環境に導入されることがよくあります。これらのデプロイメントは、ジャストインタイムの「インジェクション」と「ジェイルブレイク」(総称してジャストインタイム ハッキングと呼ばれる)に対して脆弱であり、モデルが操作されて元の指示を無視し、潜在的に悪意のある指示に従うことになります。これが重大なセキュリティ上の脅威であることは広く認識されているにもかかわらず、インスタントハッキングに関する定量的な研究は比較的少ないままです。

そのため、本研究では、自由形式の人工入力攻撃を許可する世界的なインスタントハッキングコンテストを開始し、3 つの SOTA LLM に対して 600,000 を超える敵対的プロンプトを提案しました。実験結果は、現在の LLM がインスタント ハッキング攻撃によって実際に操作される可能性があることを示しています。

プロンプトハッカー技術分類。

EMNLP 2023 ベストデモペーパー

PaperMage: 視覚的に豊かな科学文書を処理、表現、操作するための統合ツールキット


  • 論文アドレス: https://aclanthology.org/2023.emnlp-demo.45.pdf
  • 機関: アレン人工知能研究所、MIT、カリフォルニア大学バークレー校、ワシントン大学、ノースウェスタン大学

概要: 科学研究分野の学術文献は複雑かつ理論的であることが多く、そのほとんどは PDF 形式です。文献を参照するには多くの時間がかかります。この問題を解決するために、本論文では、視覚的に豊かで構造化された科学文書を分析および処理するためのオープンソースの Python ツールキット papermage を提案します。

Papermage は、さまざまな SOTA NLP および CV モデルを統一されたフレームワークに統合することで、科学文献の明確で直感的な抽象化を提供し、一般的な科学文書の処理ユースケースを提供します。学術文献検索エンジン Semantic Sc​​holar のサポートにより、papermage はすでに複数の AI アプリケーション研究プロトタイプの科学文献を処理できます。

EMNLP 2023 最優秀業界論文

論文タイトル: 音声対応会話システムのためのグローバルインデックスによるパーソナライズされた高密度検索


  • 論文アドレス: https://aclanthology.org/2023.emnlp-industry.9.pdf
  • 組織: Amazon Alexa AI 研究チーム

論文概要: 音声制御 AI 対話システムは、音声変動ノイズの影響を受けやすく、あいまいなエンティティを解決するのが困難です。通常、これらのエラー モードから回復するために、パーソナライズされたエンティティ解決 (ER) とクエリ書き換え (QR) が展開されます。これまでの研究では、検索空間をユーザーのデバイスとの過去のやり取りから構築されたパーソナライズされたインデックスに制限することでパーソナライズを実現しています。この制限された検索では高い精度が達成されますが、予測はユーザーの最近の履歴内のエンティティに限定されるため、将来のリクエストに対して広範囲に及ぶことはありません。さらに、多数のユーザーに対して単一のインデックスを維持することは、メモリを大量に消費し、拡張が困難になります。

この論文では、パーソナライズされたインデックス作成に限定されず、音声ノイズや曖昧さに対して堅牢なパーソナライズされたエンティティ検索システムを提案します。研究者たちは、検索に使用されるコンテキストクエリの埋め込みにユーザーのリスニングの好みを組み込みました。彼らは、提案されたモデルが複数のエラーパターンを修正する能力を実証し、エンティティ検索タスクのベースラインに対して 91% の改善を達成しました。また、エンドツーエンドのアプローチを最適化して、オンラインレイテンシの制約を満たしながらパフォーマンスの向上を維持しました。

その他の優秀論文賞

上記の賞に加えて、EMNLP 2023の役員は、いくつかのトラックで優秀論文賞も授与しました。たとえば、ペンシルベニア州立大学の研究者による論文「感情の問題:感情分析の解体に向けた批判的調査」は、感情分析、文体分析、議論マイニングのトラックで優秀論文賞を受賞しました。

画像出典: https://twitter.com/PranavVenkit/status/1733856362214674848

チューリッヒのスイス連邦工科大学(ETH)のポスドク研究員であるイーサン・ゴットリーブ・ウィルコックス氏が共同執筆した2つの論文が優秀論文賞を受賞しました。

画像出典: https://twitter.com/weGotlieb/status/1733794210074243348

ティルブルフ大学とアムステルダム大学の研究者による論文「同音異義語の明確化により音声変換器における文脈混合のパターンが明らかに」も優秀論文賞を受賞した。

画像出典: https://twitter.com/gchrupala/status/1733788397976650154

<<:  ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

>>:  1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

ブログ    
ブログ    
ブログ    

推薦する

4090はA100の代替品になるのでしょうか?トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

それだけでなく、PowerInfer は、モデルの精度を維持しながら、単一の RTX 4090 (2...

敏捷性の秘密: iPCA ネットワーク パケット保存アルゴリズム

次世代ネットワークにおける「見える化」への欲求ネットワークが複雑になるにつれて、ネットワーク管理に対...

AIは占いや顔分析ができるのか? 「IQ税」を払わないでください

「五十の大道あり、四十九は天から出たもの、人は一つを逃れる。」人々は未知のものに興味を持ち、その未知...

...

...

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

現在、主要なOTA(オンライン旅行代理店)プラットフォームは人々の旅行を大幅に容易にしています。ホテ...

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

IDCによると、世界の企業は2023年に160億ドル(ITホーム注:現在は約1169.6億人民元)を...

...

家賃決定問題を用いてK近傍法アルゴリズムを学ぶ

[[405033]] k 近傍法の考え方は、私の意見では最も純粋で明確な考え方であり、k 近傍法アル...

予測分析アルゴリズムを効果的に使用するための 10 のステップ

予測分析プロジェクトを成功させるには、ソフトウェアを導入してそれを使用してデータを分析するだけではあ...

Huawei が積極的に攻勢をかけており、Google もすぐ後に続いています。人工知能をめぐるこの戦いに勝つのは誰だと思いますか?

[[244829]]テクノロジー大手のHuaweiは最近かなり活発に活動している。 9月1日、ファ...

AI に関する知っておくべき 29 の統計とトレンド

ChatGPTは2022年11月の爆発的なリリースに続いて世界を席巻し、2023年には人工知能(AI...

...

アリババDAMOアカデミーがAIの人間の言語理解の向上を支援する論文でSemEval最優秀賞を受賞

世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀シ...