ハリウッド映画の興行成績を脚本段階で予測する「Epagogix」の仕組み
0過去に何度か興行収入3億ドルを超えるヒット作をリリースしてきたハリウッドの大物映画プロデューサーが自信に満ちた表情で言った。
「今回の映画も、3億ドルの興行収入を超える大ヒット作になるだろう。製作費は1.5億ドルほど、リターンは2倍だ。他からも出資の話はきているけれど、今回もあなたのところにまずお話をもってきた。全額、出資しないかい?」
あなたが、新作映画を準備する大手映画会社の投資ディレクターだったとして、このような投資提案に即座に応じることができるだろうか、また応じるべきなのだろうか?
ハリウッドでは、6つのメジャースタジオが年間に20本の映画を製作しているが、一本の映画製作コストは広告費を除いて平均6000万ドルかかっている。そして、ある程度見込みのある脚本が現実味を帯びるまでにも1400万ドルのコストがかかると言われている。もちろん、興行収入が期待どおりになるかどうか、映画の成功は全く保証されていない。日本の映画製作費が平均3.5億円(1000万から20億円)であることに比べると、実に17倍の初期投資が必要になる。
2003年にイギリスで創業されたEpagogix社は、このハイリスクのギャンブルを、ニューラルネットワークを利用した独自の脚本解析アルゴリズムを用いて、より適切にリスクマネージされた投資へと変え、今では映画会社が巨額予算の映画を製作決定するうえで、不可欠な存在となっている。
遡ること2004年、とある大手映画会社が未公開の映画の脚本9本をEpagogixのアルゴリズムで解析した。9本の映画がすべて公開され、上映が終了した後、Epagogixがはじき出した各映画の興行収入予測と、実際の結果とを比べた。9本のうち6本の予測は奇妙なほどに的中していた。会社側が1億ドルまたはそれ以上の興行収入を期待したものの、実際には4000万ドルしか稼げず失望に終わった1本について、Epagogixのアルゴリズムは4900万ドルと予測していた。別の一本についても、誤差はわずか120万ドルだった(*1)。
Epagogix社の名前は、マルコムグラッドウェルが2006年10月のNewYorkerの記事に取り上げて以来、イアン・エアーズの”Super Crunchers (邦訳:その数学が戦略を決める),2008”や、TED Talk の“ケヴィン・スラヴィン 「アルゴリズムが形作る世界」,2011”など多くのところで取り上げられているため、データサイエンスに関心を持つ読者の皆様においては、耳にされた方も多いことだろう。
これまでEpagogixについては、「脚本段階で、完成後の映画の興行成績を専門家よりも高い精度で予測できる」ということがセンセーショナルに取り上げられているものの、その方法については、大まかにニューラルネットワークを使っているという記載にとどまり、どういったトレーニングデータやフィーチャーを使って予測しているかについて、詳しく取り上げられていることは少ない。
ここからは、Epagogix社による過去の講演や、Epagogix社のアルゴリズムについて断片的に取り上げられている記事や書籍の内容をもとに、ここまでに報告されている事実を整理して、可能な範囲でその仕組みについて解説をしたいと思う。
まず、2013年5月13日に損害保険数理のセミナーで創業CEOであるNick Meaney が行ったKeynoteのスライドから見ていこう。
約1時間の講演で、アルゴリズムやトレーニングデータに関する詳細については、ほぼ触れられていないが、このスライドを見るかぎり、興行成績を予測するにあたって、専門家が評価した脚本のスコアをニューラルネットワークで解析し、実際の興行成績に対する予測精度が十分に高まるまで各Featureの重み付けをチューニングしていることがわかる。機械学習としては、ニューラルネットワークを使った一般的な教師あり学習の手法である。
一般に、十分なボリュームの適切なトレーニングデーさえあれば、ニューラルネットワークであれ別の手法であれ、興行成績の予測精度を高めるために、データの中に有意味なパターンを見つけ、各Featureの重み付けを最適化することは、それほど難しいことではない。最も興味深い疑問は、そしてEpagogixを業界でユニーク足らしめているのは、この「専門家が評価した脚本のスコア」は、具体的にどういった評価内容で、どのように入手しているかという点であろう。これについては、別のソースでいくつかの参考になる記述がある。
まずクリストファースタイナーの『アルゴリズムが世界を支配する(2013)』では、Epagogixについて次のように解説している。
アルゴリズムが実際に取り込むのは、人間が脚本を読み、何百もの異なる要素に基づいて評価した報告書だ—-ストーリー設定、主役のタイプ、脚本中の道徳的ジレンマ、脇役の設定、エンディング、恋愛話など、要素はいくらでもある。新しい脚本を買うかどうか判断するのに、もうフォーカスグループを招集したり、取締役会で議論をしたり、役員同士が意見をぶつけ合う必要はない。ただ評価をしてアルゴリズムに託せばいいのだ。しかし、いかに天才的とはいえ、このアルゴリズムは、セリフやストーリー、構想、キャラクターなどすべての要素について、まずは人間による評価を経る必要がある。(p123)
クリストファースタイナーによると、専門家が評価する脚本スコアは、ストーリー設定、主役のタイプ、脇役の設定、エンディングなどの要素に細かく分けて、記述されているようだ。平均60億円の製作費を考えると、脚本段階で、これらの要素を緻密に分析・スコア化することは十分に割に合う経済活動だと言える。では、これらのストーリーの各要素の重要性を計る基準となる、過去の膨大な映画の脚本については、誰がどのように、評価データを構築したのだろうか?
この点については、マルコムグラッドウェルが2006年にNewYorkerに投稿した記事”The Formula”が参考になる。話はEpagogixの創業前に遡る。脚本評価データの原点は、創業者であるNick Meaneyの大学時代の友人とその仲間(Epagogixでは敬意を込めてMr.ピンク&ブラウンと呼ばれている)が作った、脚本そのものを要素単位で分解し、それをさらに大まかなテーマ別に振り分けた映像の百科事典的データベースにあるようだ。より詳しく記述されている部分を一部、抜粋して翻訳しよう。
彼らはまず”トレーニング・セット”と呼ぶニューラルネットワークシステムを用意し、Mr.ピンク&ブラウンがすでに採点してある脚本にもとづいて、評価パターンを認識させた。その時、脚本のパターンだけでなく脚本それぞれの興収成績も一緒にネットワークに学習させていった。このニューラルネットワークはミーニーの知り合いの科学者がコーディングしたものだった。科学者の活躍は続く。彼はそれからMr.ピンク&ブラウンの採点結果データを使って、ニューラルネットワークシステムにすべての脚本の興収成績を予測させる訓練を施した。
例えば最初の脚本では
ヒーローの葛藤:10ポイント中7.0 ∴700万ドル相当を加算
赤毛の魅力的な女の子の登場:10ポイント中6.5 ∴300万ドル相当を加算
ヒーローと4歳の男の子が共演するシーン:10ポイント中9.0 ∴200万ドル相当を加算
という具合に、Mr.ピンク&ブラウンが付けた採点すべてに値付けがされていった。
そして最終的に算出された予測価額は実際の興収と比較された。もちろん最初からぴしゃりと一致などするわけない。たとえば予測価額が2000万ドルで実際の興収が1億1000万ドルなら、今度はそれぞれの採点への重みづけを変えて再計算する・・・これを繰り返して最初の作品を的確に予測できるフォーミュラができあがる。
次にこのフォーミュラを使って、最初の作品と二番目の作品の二つの興収を的確に算出できるようフォーミュラを改良する・・・こうして膨大な反復作業の末、データベースに収納されている全作品の興収すべてを的確に算出できる最終的なフォーミュラができあがったのだった。
ヒーローの葛藤、赤毛の魅力的な女の子の登場、ヒーローと4歳の男の子が共演するシーン。Epagogixでは、脚本にあるストーリーやキャラクター、その登場シーンが細かく要素分解されて、予測の興行収入が実際の興行収入に近似するまで繰り返しニューラルネットワークで学習し、それぞれの要素が興行収入にどの程度貢献しているか、あるいは足を引っ張っているかが公式化されている。
各映画の興行収入データに比べ、このように機械学習で使える脚本の細かく、正確な評価データを入手・構築することは容易ではない。Epagogixが実際に、過去何作品分の脚本解析データを持っているかは公表されていないが、創業者の友人がその基礎を作った脚本評価のデータベースと、過去10年近くの事業で蓄積してきた映画脚本の評価データとその興行収入結果は、この事業の参入障壁となっている。
一方で、この専門家による評価データをもとにした教師あり機械学習の仕組みそのものが、Epagogixのビジネスを大手映画会社の超大作の投資リスク判断に限定させ、スケーラブルな展開に制限をもたらしていることも否めない。興行収入を予測するための下準備の脚本解析に多くの労力が必要とされるため、超大作以外の多くの作品、たとえば予算額の大きくないテレビドラマ作品や、まだ名の売れていない脚本家の作品の発掘などには不向きであろう。
もし脚本の内容を自動で解析・評価し、過去の類例から、興行収入をある程度正確に予測することができたらどうなるだろうか?
おそらく、著名な脚本家や、大物俳優・女優に頼る超大作の投資リスク判断に限らず、ちょっとしたテレビドラマや、より小資本の映画製作の現場でも、ヒット率を高めるための事前予測と脚本改善がなされるようになるだろう。その結果、無名でも才能と可能性のある脚本と脚本家が発掘され、より多くの感動的なエンターテイメントを、より効率的なROIで提供することが可能になるのではないだろうか。
もちろん、テキストデータの意味解析には多くの課題があり、このような教師なし機械学習を、脚本からの興行収入の予測問題に適用するまでには、まだしばらく時間がかかるだろう。また、機械が脚本を自動評価し、作品化すべき投資対象を決定することへの文化的反感も根強いだろう。映画産業に長く勤めるその分野のエキスパートであることを自称されている方であれば、なおさらに。
ちなみに、2013年に最もROIが高かったアメリカ映画のTop10は下記のようになっている。
Rank | Title | 製作費 (万$) | 興行収入 (万$) | ROI |
1 | The Purge | $300 | $8,100 | 2700% |
2 | A Haunted House | $250 | $4,000 | 1600% |
3 | Kevin Hart: Let Me Explain | $250 | $3,200 | 1280% |
4 | Despicable Me 2 | $7,600 | $78,100 | 1028% |
5 | Mama | $1,500 | $14,600 | 973% |
6 | The Conjuring | $2,000 | $19,300 | 965% |
7 | Dark Skies | $350 | $2,640 | 754% |
8 | Spring Breakers | $500 | $3,100 | 620% |
9 | Iron Man 3 | $20,000 | $120,000 | 600% |
10 | Evil Dead | $1,700 | $9,750 | 574% |
*興行収入上位は6大メジャーのビッグタイトルが多くを占めるが、ROIの観点ではパフォーマンスは必ずしも上位を占拠していない。
そう遠くない未来に、小規模予算で作られるROIトップ10ランキングの映画タイトルが、映画化を待ちながら人目に留まらないシナリオの山の中から、機械が自動で見つけた作品に占められている日も来るのかもしれない。
次回は、文字情報の脚本に比べて、機械学習による作品の自動評価と親和性の高い音楽作品において、実際に普及している「ヒット予測・チューニングテクノロジー」と、保守的な音楽産業と折り合いをつけて成功しつつある「したたかなビジネスモデル」について、米国の事例をもとに紹介しよう。
(*1) THE FORMULA What if you built a machine to predict hit movies? BY MALCOLM GLADWELL OCTOBER 16, 2006