映画データベース (TMDB) は映画データ用の API を提供し、ユーザーはこのデータベースからデータをダウンロードできます。では、映画が公開される前にある程度の情報しか知らなくても、映画の評価や興行収入を予測できるのでしょうか? 良い映画やベストセラーの映画を最もよく予測できるパラメーターは何でしょうか? 出演者や俳優は映画の興行収入を予測するのに役立ちますか? 映画の 90% でランダムにモデルを構築し、残りの 10% でモデルをテストしました。これらのテストモデルムービーについては、次のとおりです。
データ データは適切にラベル付けされていますが、詳細になりすぎています。要約すると次のようになります。
入力として使用される変数は次のとおりです。
予測モデルで使用される変数は次のとおりです。
データ準備 ソースリンク: https://github.com/rian-van-den-ander/explorations/tree/master/film_success/data_prep.py 問題1: 興行収入データが十分ではない
質問 2: リリース日をどのように示すのですか?
より大きな問題3: 多くはJSONリストである
JSON アクター リストの行は次のようになります。
これらは、モデルに適した1と0を含むリストに変換されます。 モデルの成功の検証 モデルの成功を示すために、共通係数 r² を使用することを選択しました。これは、回帰問題に取り組むデータ サイエンティストのデフォルト オプションであり、著者のモデルが各映画の平均評価や興行収入を予測するよりもどれだけ優れているかを測る指標です。
もちろん、ある時点で、解決策が十分に優れている場合は、測定を中止してそれを採用することができます。これは解決する問題によって異なりますが、一般的には次のようになります。
映画の評価予測 ソースリンク: https://github.com/rian-van-den-ander/explorations/blob/master/film_success/film_rating_with_cast_best_regressor.py モデル選択のために、XGBoost 回帰関数を使用してハイパーパラメータ グリッド検索を実行し、データを実行しました。グリッド検索では、ランダム フォレスト リグレッサーや非常に優れたパフォーマンスを発揮するニューラル ネットワークなど、他のいくつかのライブラリを試しました。グリッド検索は XGBoost 回帰分析のパフォーマンスを大幅に向上させるため、速度と精度の両方の点で強く推奨されます。 もちろん、映画のメタデータだけに基づいて映画の評価を正確に予測するのは、少し夢物語です。なぜなら、脚本の質や、俳優(ジョニー・デップなど)が最も得意とする役柄であるかどうかなど、メタデータでは確認できない変数がたくさんあるからです。 つまり、得られた最良のモデル結果は r²=0.53 でした。機械学習の基準では、これは問題ありません。モデルは平均評価の分散の 53% 以上を説明しました。言い換えれば、このモデルは多くの変数を除外しますが、それでもほとんどの映画が平均よりも優れているか劣っているかを明確に予測します。 興味深いことに、グラフには即時の結果が表示されます。より正確に予測するには、モデルを歪ませる必要があります。 映画の評価と最も相関関係にある変数は何ですか? XGBoost ライブラリの出力は、予測におけるパフォーマンス (入力変数) の重要性を示します。モデル自体が完璧な予測を行うわけではないことを考えると、これはあまり重要ではないと言わざるを得ません。ただし、出力には非常に明確な点が示されています。 ここでは、入力変数のうち約 200 個のみが重要であることがわかります。残りは基本的にアルゴリズムによって削除されます。将来的には、より優れたコンピューターを使用して、より多くの入力変数 (撮影チームとキャスト) を選択し、事前分析を実行して、映画の評価と相関関係のない変数を選別するだけで済みます。 テキスト形式では、映画の評価に最も関連する変数は次のとおりです。 免責事項: 人々がこれらの単語のいくつか(ホラー、ティーン)を選択して使用する可能性があるため、評価に悪影響を与える可能性があります。アルゴリズムは、予測子に最も大きな影響を与える変数のみを出力します。
映画収益予測 - より簡単な作業 ソースリンク: https://github.com/rian-van-den-ander/explorations/blob/master/film_success/film_revenue_with_cast_best_regressor.py 予想どおり、次の要素を考慮すると、これははるかに簡単な作業です。
前の方法と同様に、この予測モデルの R² は 0.77 です。言い換えれば、映画が公開される前の入力に基づいて、非常に優れた収益予測モデルを構築できるということです。これは現実世界にも影響を及ぼします。例えば、映画館ではこれを利用すれば、映画をどのくらいの時間上映したいかを事前に予測することができます。 これは私たちの評価予測よりもはるかに良いようです。確かに外れ値はありますが、予測ラインの上下にほぼ均等に配置されています。 映画の収益と最も相関関係にある変数は何ですか? この変数のリストは驚くべきものではありません。ただし、同じ免責事項が適用されます。変数はリターンにマイナスの影響を与える可能性があり、モデルは完璧ではありません。しかし、このリストは予算と収入の間に密接な関係があることを裏付けています。結局のところ、投資に対する見返りがないのなら、なぜ映画を作る人がいるのでしょうか? 当然のことながら、ピクサー・アニメーション・スタジオのスーパーヒーロー映画は、この点で強い存在感を示しており、キーワード、スタジオ、ジャンル、クルーのすべてがリストの上位にランクされています。驚いたことに、予算よりも制作プロデューサーのデニー・カイラの方が重要だった。どうやら彼は映画業界の有名人らしいです!
給料:俳優が最も関連している ソースリンク: https://github.com/rian-van-den-ander/explorations/blob/master/film_success/film_actors_to_ratings.py 収益によって変動する金額。 注: この問題では、アルゴリズムに大規模なキャストを含め、クルーと予算などの他の変数は考慮しませんでした。これは俳優と成功した映画との関係についての純粋な議論です。このため、ここでの変数のリストは上記とまったく同じではありません。 映画の評価と最も相関関係にある俳優は誰でしょうか?
映画収入と最も相関関係にある俳優は誰ですか? どうやら、スタン・リーは映画製作者を裕福にはしないようだ。彼はマーベル映画ばかりやっています。以下のリストは、映画を大ヒットさせた俳優を示すのではなく、俳優と高収益映画(通常はスーパーヒーロー映画)との相関関係を示しています。
撮影チーム 当初、モデルを構築したとき、撮影クルーのプロフィールは作成していませんでした。これは大きな見落としです。モデルに上位 200 人のプロデューサー、脚本家、監督のみを含めると、興行収入予測 R² が 0.68 から 0.77 に向上します。 さらに印象的なのは、タイプ変数を 1 つ追加するだけで、評価予測 R² が 0.19 から 0.53 に向上することです。映画制作スタッフは、映画の評価予測において 30% 以上の差異を説明できます。 改善の余地あり このアプローチは完璧ではなく、近道をすることで多くの有用なデータが破棄されます。特にモデルのスコア予測を改善するために最適なソリューションを見つけたい場合は、次の質問を検討してください。
|
>>: 顔認識の背後にあるセキュリティリスクを誰が負担するのでしょうか?
欧州議会は7月4日、6月14日に人工知能法案草案を可決した。これは、欧州企業が立ち上げたAIモデルを...
誕生から2か月も経たないうちに、アリババの物流ロボット「小曼路」が稼働を開始した。 10月30日、小...
最近、オーストラレーシア工科大学、マッセー大学、ロイヤルメルボルン工科大学などの研究機関の研究者が、...
MIT-IBM Watson AI ラボの研究者たちは、電力網の問題のトラブルシューティングに人工知...
テクノロジーが世界を変えたというのは議論の余地のない事実です。古代の鋤から今日の印刷機やパソコンまで...
1. 要件の説明2 つの文字列を入力し、2 つの文字列の最長共通部分文字列を取得するプログラムを作成...
欧州連合は、AIを使って歴史的な香りや嗅覚要素を再現することを計画している研究チームに280万ユーロ...
職場向けソーシャルプラットフォーム「LinkedIn」は6月26日、広告主が生成AIを通じてマーケテ...
著者 | 宋涛、尚賢、小斌 他アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たち...
JD.comでは以前から物流ロボットを活用しているといわれています。東莞市麻容のJD仕分けセンター...
[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...
大規模な多国籍産業企業は、進行中のデジタル産業革命で効果的に競争できるように、機械をよりスマートにす...
[[329860]] 【51CTO.com クイック翻訳】あらゆる種類の企業が AI や機械学習プ...
[[404075]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...