情報フローシナリオにおけるAIGCの実践

1. パーソナライズされたタイトル生成

パーソナライズされたタイトル生成とは、ユーザーコンテンツとパーソナライズされた情報を使用して、さまざまなユーザーまたはさまざまなアプリケーションシナリオのタイトルを生成することを指します。

主な使用シナリオは 3 つあります。

推奨シナリオ: 推奨システムでは、異なるユーザーまたはグループが同じコンテンツに対して異なる興味を持つ場合があります。したがって、推奨シナリオでは、パーソナライズされたタイトル生成では、ユーザーの興味や好みに基づいて、ターゲットを絞ったタイトルを生成する必要があります。これにより、ユーザーの読書への関心が高まり、クリック率が向上し、推奨システム全体の有効性が向上します。
検索シナリオ: 検索エンジンでは、ユーザーの検索クエリに基づいて関連性の高いタイトルを生成することが重要です。パーソナライズされたタイトル生成では、ユーザーの検索意図を捉え、それを記事の内容と組み合わせて、ユーザーのニーズを満たすタイトルを生成できる必要があります。これにより、ユーザーはニーズに合った情報をすばやく見つけることができ、検索エクスペリエンスが向上します。
クリエイタープラットフォーム: クリエイタープラットフォームでは、著者は通常、独自の執筆スタイルを持っています。パーソナライズされたタイトル生成では、著者のこれまでのタイトル作成スタイルを模倣し、一貫したスタイルのタイトルを生成する必要があります。これにより、著者は一貫した個人ブランドイメージを維持しながら、読者が著者の作品を識別しやすくなります。

直面した主な問題と困難:

シナリオ表現: ユーザーの興味、検索クエリ、著者のスタイルなどの明示的または暗黙的な情報をどのように表現するか。
インタラクション設計: シーン表現を取得した後、記事やタイトルとどのようにインタラクションしてパーソナライズされたタイトルを生成するか?

1. キーワードに基づいたタイトル生成

推奨と検索のシナリオには、推奨におけるタグ、興味のあるポイントやポートレート、検索におけるクエリなど、多数のキーワードが存在します。このモデルは、エンコーダーとデコーダーの部分を含むトランスフォーマー構造を使用します。この記事では、より良い結果を得るために、キーワード情報をモデルに統合する複数の方法を試しました。最も簡単な方法は、元の Multi-head Attention レイヤーに新しいキーワード表現レイヤーを追加することです。もう 1 つの方法は、最初に記事表現とキーワード表現を対話し、キーワード表現をクエリとして、記事表現をキーと値として使用し、次に Multi-head Attention レイヤーを使用してフィルタリングされた記事表現を生成し、最後にそれをデコーダー側で処理することです。

実験結果によると、キーワードフィルタリングされた記事表現を導入すると、モデルのパフォーマンスが大幅に向上することが分かりました。このようにして、生成されたタイトルはユーザーの興味に沿ったものになり、推奨と検索の精度が向上します。

2. 過去のクリックシーケンスに基づいたパーソナライズされたタイトル生成

ユーザーのクリックスタイルに適したタイトルを生成するために、トランスフォーマーエンコーダーと LSTM デコーダーを組み合わせ、ユーザーの過去のクリックシーケンス情報を組み込む方法を提案します。方法の詳細な説明は次のとおりです。

入力データとユーザー表現: まず、各ユーザーの履歴クリックシーケンスが処理されます。入力データには、ユーザーが閲覧した記事のタイトルやその他の関連する特徴が含まれます。これらの履歴クリックシーケンスは、ユーザーエンコーダーを通じてエンコードされ、ユーザーのクリックスタイルを表すユーザー埋め込みが取得されます。

モデルアーキテクチャ: モデル全体では、エンコーダー側として自己注意メカニズムに基づくトランスフォーマーエンコーダーを使用して、入力記事コンテンツの意味情報と構造情報を抽出します。デコーダーは、強力な時間モデリング機能を備え、滑らかで一貫性のあるタイトルを効果的に生成できる長短期記憶ネットワーク (LSTM) を使用します。

ユーザースタイルガイダンス: タイトル生成プロセス中に、ユーザーエンベディングによってモデルの出力を次の 3 つの方法でガイドできます。

a. LSTM 隠し状態を初期化する: ユーザーの埋め込みを LSTM の初期隠し状態として使用します。つまり、見出しを生成するときに、モデルはユーザーのクリックのスタイルを考慮して考え始めます。これにより、生成されたタイトルはユーザーの興味や好みにより合ったものになります。

b. 注意分布計算に参加する: デコード処理中、LSTM は入力された記事の内容と現在生成された部分タイトルに基づいて次の単語を予測する必要があります。この目標を達成するために、アテンションメカニズムを導入すると、LSTM がより重要な入力情報に集中できるようになります。ユーザーの埋め込みを注目度分布の計算に組み込むことで、モデルはタイトルを生成するときに、ユーザーのクリックスタイルに関連するコンテンツにさらに注意を払うことができます。

c. ゲートネットワーク計算に参加する: LSTM のゲートネットワークは、情報の流れを制御する役割を果たします。タイトル生成プロセスでは、ユーザーの埋め込みと記事コンテンツ情報を組み合わせ、ゲーティングネットワークの計算に参加することで、情報の選別と更新プロセスをさらに最適化できます。これにより、自分のスタイルに合ったタイトルが生成されます。

実験結果は次のとおりです。

3. 著者のスタイルに基づいたタイトル生成

より魅力的で、関連性が高く、流暢なタイトルを生成するために、トランスフォーマーベースのアプローチを採用し、著者の過去のタイトル情報を組み込みました。

まず、トレーニングデータセットを構築するために、毎日特に多くの投稿をするアカウントと、特に投稿数が少ないクリエイターを除外しました。次に、著者の歴史的なタイトルに基づいて、トリプレット (<記事、歴史的なタイトル、希望するタイトル>) データセットが構築されます。このデータは、トランスフォーマーモデルをトレーニングするための入力として使用されます。

トランスフォーマーモデルでは、エンコーダーは主に入力テキストの意味情報を抽出する役割を担います。しかし、n 個の歴史的タイトルの埋め込みを単純に計算して平均するだけでは、著者のスタイルを表現することは困難です。この問題を解決するために、対照学習法を導入します。バッチでは、同じ著者のタイトルがペアで正の例を形成し、異なる著者のタイトルがペアで負の例を形成します。この種のトレーニングにより、モデルの表現は単なる意味情報ではなく、著者のスタイルをより捉えやすくなります。

実験結果によると、著者スタイルを導入したタイトル生成モデルでは、Rouge および BLEU 評価指標が改善されることが示されています。元のモデルと比較すると、新しいモデルによって生成されたタイトルは、著者のスタイルとの一貫性を維持しながら、より流暢で、関連性が高く、魅力的です。これは、著者の過去のタイトル情報を活用することで、著者のスタイルに沿ったタイトルを生成でき、ユーザーエクスペリエンスが向上することを示しています。

2. 表紙画像の自動合成

情報爆発の時代である今日、視覚的なコミュニケーションの一形態としての表紙画像は、強い魅力と読みやすさを持っています。ソーシャルメディア、ウェブサイト、雑誌など、さまざまなシナリオで重要な役割を果たします。しかし、実用的でありながら視聴者の注目を集めることができるカバー画像をデザインするのは簡単ではありません。ユーザーがコンテンツをすぐに理解し、強い関心を喚起できるようにするには、カバー画像のシンプルさと複雑さのバランスをとる必要があります。

カバー画像がシンプルすぎると、ユーザーは十分な情報を得ることができず、その背後にある価値を無視してしまう可能性があります。ただし、カバー画像が複雑すぎると、理解するのが難しくなり、膨大な量の情報に直面したときにユーザーがすぐに忍耐力を失ってしまう可能性があります。したがって、表紙画像をデザインするときは、「シンプルさと明瞭さ」の原則に従い、テキストと画像を適切に組み合わせて、ユーザーにどのような記事であるかを伝える必要があります。

カバー画像の魅力と実用性を高めるために、タイトルやタグなどの重要な情報をカバー画像に埋め込むことをお勧めします。これらの重要な情報により、ユーザーは記事のトピックを初めて理解できるようになり、読む意欲が高まります。同時に、これは記事の専門性と信頼性の向上にも役立ち、ユーザーに時間をかけて読む価値があると思わせることになります。

つまり、カバー画像は情報伝達とユーザー誘致において重要な役割を果たします。デザイナーは、ターゲットユーザーやコミュニケーションチャネルに応じてカバーイメージのシンプルさと複雑さのバランスを取り、美しく実用的なカバーイメージを慎重にデザインする必要があります。タイトルやタグなどの重要な情報をカバー画像に埋め込むことで、ユーザーエクスペリエンスが向上し、記事の範囲と影響力が拡大します。

ここで注意すべき点がいくつかあります:

カバー画像には、放送局のロゴ、透かし、字幕などを含めることはできません。
カバー画像の重要な情報によって、顔や重要な対象などが隠れてはなりません。
カバー画像の重要な情報は、タイトル、タグ、カテゴリ、キーワードから抽出する必要があります。

まず、画像復元技術を使用して、透かしや字幕などの邪魔な要素を削除し、きれいなカバー画像を取得します。次に、Seq2Seq モデルを使用して、タイトルとタグから重要な情報を抽出します。次に、オブジェクト検出を実行して、顔やオブジェクトなどの重要な部分を識別し、生成されたカバー画像でそれらが遮られていないことを確認します。最後に、自動カバー画像合成リファレンスレイアウト生成方式を使用して、テキスト情報をカバー画像に統合します。具体的なプロセスフローチャートは次のとおりです。

本稿では、高品質な表紙画像生成を実現するために、画像復元技術、Seq2Seqモデル、オブジェクト検出、自動表紙画像合成参照レイアウト生成法などの先進技術を活用した手法を紹介します。この方法の詳細な手順は次のとおりです。

画像復元技術: 画像復元技術は、透かしや字幕などの干渉要素を除去して、きれいなカバー画像を取得することを目的としています。このプロセスでは Faster R-CNN が使用され、次の手順が実行されます。OCR はテキストボックスの提案を識別します。 ResNet50 を使用して入力画像から特徴を抽出し、F1 を取得します。機能マッピングを通じて、テキストボックスの機能 F2 が F1 から取得されます。 F2 に基づいて分類し、コピーライティング、ステーションロゴ、字幕のいずれであるかを識別します。インペインティングに基づくコンテンツ消去。このようにして、復元された画像は、不要な要素を削除しながら、元のシーンの視覚効果を維持することができます。

Seq2Seq モデルを使用して重要な情報を抽出します。Seq2Seq モデルは、ディープラーニングに基づくエンドツーエンドのシーケンス生成モデルです。このアプリケーションでは、タイトルとタグから重要な情報を抽出するために使用されます。 Seq2Seq モデルは、エンコーダーとデコーダーの 2 つの部分で構成されます。エンコーダーは入力テキストを固定サイズのベクトル表現に変換し、デコーダーはこの表現から出力シーケンスを生成します。このプロセスでは、モデルはカバー画像に関連する重要な情報を識別して抽出することを学習できます。具体的な手順は次のとおりです。Pointer をベースモデルとして、事前トレーニング済みの T5 モデルを使用します。ビデオのタイトル、カテゴリ、キーワードを入力として使用し、手動で書き換えられた情報を結果として使用して、データのバッチにラベルを付けます。予測のキー情報には複数のフラグメントが含まれる場合があります。

オブジェクト検出: オブジェクト検出テクノロジーは、顔やオブジェクトなど、画像内の重要な部分を識別するために使用されます。これらの部分は画像内で重要な視覚的特徴を持つ可能性があるため、カバー画像を生成する際には特別な注意が必要です。物体検出では通常、畳み込みニューラルネットワーク (CNN) や領域畳み込みニューラルネットワーク (R-CNN) などのディープラーニング技術を使用して、重要な部分を正確に識別します。この方法では、テキスト情報を挿入するときに、これらの重要な部分がブロックされないようにすることができます。現在、物体検出モデルは顔、猫、犬、車など65のカテゴリを認識できます。ターゲットボックスの位置は、左上と右下の点の座標で表されます。

自動カバー画像合成とは、レイアウト生成方式を指します。上記の準備が完了したら、次のステップは、テキスト情報をカバー画像に統合することです。この目的のために、レイアウト生成と呼ばれる方法を使用して、カバー画像のレイアウトを自動的に生成します。この方法では、まず入力画像を分析し、その視覚的特徴と構造情報を抽出します。次に、この情報を使用して、テキスト挿入に最適な場所とスタイルを決定します。最後に、タイトルとタグから抽出されたキー情報が対応する位置に挿入され、最終的なカバー画像が生成されます。

<<: NVIDIA が Tensor RT-LLM を発表、RTX 搭載 PC プラットフォームで大規模言語モデルを 4 倍高速化

>>: APIセキュリティへのAIの適用