効果測定に潜むバイアスを避けるには？広告を正しく評価するための 4 条件

これからの広告がどのような役割を果たすべきなのか、さらに広告の効果測定方法に存在するバイアスを明らかにし、そのバイアスを取り除く方法とは何か——。広告の効果測定をテーマに、Google の事例をもとにして、Google のミン・グエン（コンシューマー＆マーケットインサイト・マーケティングリサーチマネージャー）が解説します^(*1)。

さて、今回はちょっとした架空の物語から話を始めましょう。

意思決定を惑わす 2 つのバイアス「ビジター」と「トレンド」

舞台は数年後の世界——。ミン青年は自分のアパレル店を開業しました。より多くの顧客を獲得するために、彼は営業アシスタントを雇おうとしています。彼がアシスタント候補者に与えた最初のタスクは、次の通りです。

「入り口に立ち、顧客にチラシを配ること」

1 週間後、彼は顧客数が 10% 増加したことを確認したので、その候補者を雇うことにしました。

ここでちょっと立ち止まってください。このミン青年の意思決定には問題がありそうです。いったい何が問題なのか考えてみましょう。アパレル店の入り口にいる顧客は、これからお店に入る顧客です。この「すでにお店に入ろうと決めている顧客」に対して、ミンはチラシを配るよう指示しています。つまり「入り口に男性を立たせてチラシを配る」ことと「お店に入る顧客数の増加」との間には因果関係がありません。これは一種の「ビジターバイアス」です。

では正しく評価するには、どうすればよいのでしょうか。

1 つの案としては、立つ場所を「お店の入り口」から「お店の最寄り駅」に変更し、「社員を採用する前と採用した後の顧客数の増加を計測する」ことです。場所を変更することによって、先ほどの「ビジターバイアス」を排除できる可能性があります。

春夏ものの季節がやってきました。ミン青年は大量の T シャツとジーンズをストックしました。彼は新入社員に、近隣地区すべての家にチラシを配布するように依頼しました。

商品の販売から 1 カ月後、店の T シャツとジーンズがすべて売り切れ、それらの売上高は前月比 300% 増となりました。その結果を踏まえて、彼は新入社員を昇進させることを決めました。

この意思決定にも、問題があります。ミン青年は、売上高の増加における「季節性の影響」と、「店内プロモーションの効果」を無視してしまいました。特に前者を「トレンドバイアスがかかっている」と言います。

この場合の解決方法の 1 つは、「新入社員がチラシを配布せず、かつ売上のトレンド（この場合は季節性）を加味した場合に売上がどうなるか」という予測モデルを構築し、その予測と実際の差分で社員を評価することです。

「バイアス」を回避するには？

ここまでは、日常に存在する「バイアス」について見てきました。

先ほどの事例で説明した「ビジターバイアス」と「トレンドバイアス」は、広告の効果測定にも存在します。ここからは、これらをいかに回避するかについて考えていきましょう。

_{効果測定方法の背後にあるバイアス}

過去にその広告を見た人（接触者）と、見たことがない人（非接触者）を比較して、ブランドの認知や購買意欲がどのように変化しているかを測る「ブランドリフト」は、計測する際にビジターバイアスがかかる可能性があります。

たとえば、過去に商品の Web サイトを訪問したことがある人に再度アプローチを促す「リマーケティング広告」を想像してみてください。「接触者」は商品の Web サイトをすでに訪問したことがあるので、広告を見なくてもその商品について知っています。ですから、単純に「接触者」と「非接触者」の認知度のブランドリフトを比較すると、ビジターバイアスがかかるのです。

広告キャンペーン期間の前後に調査を実施して、その回答差異を分析する「プレ／ポスト調査」でも、バイアスが生じるケースがあります。

通常の広告キャンペーンは、1 年の中で顧客がその製品を購入する傾向にある季節、いわゆるシーズナリティが最も高い時期に実施します。そのため、キャンペーン前後のブランドリフトを比較し、それをキャンペーンの効果としてしまうと、意図せずに「トレンドバイアス」がかかった結果になってしまうことがあるのです。

一方で、「テスト／コントロール」の調査設計には、そのバイアスがかかりません。「コントロールグループ（従来の施策をそのまま実施するグループ）」と「テストグループ（新たな施策を試すグループ）」は無作為にサンプリングしており、ビジターの割合やトレンドの影響は、両者ともまったく同じなためです。

この手法は、もともと新薬の臨床検査などに使われていました。まず、患者をランダムにテストグループとコントロールグループの 2 つに割り当てます。テストグループ内では、新しい薬を用いて患者を治療。コントロールグループでは、患者にプラセボ（有効成分を含まず治療効果のない薬）を用います。一定期間後、2 つのグループの結果を比較して薬の有効性を測定し、何度も改善を観察でき、統計で有意な結果が得られた場合に、新薬は承認を受けて市場に出回ります。これは「ランダム化比較試験（Randomized Control Trial＝RCT）」と呼ばれる手法です。

実際のバイアスを確認するために、ある実験をしてみましょう。テスト方法と結果は下図の通りです。図はそれぞれのブランドリフトの平均と、90% 信頼区間（母集団の平均が 90% の確率でその範囲にある区間）を表しています。

「非接触者/接触者」と「プレ／ポスト」調査の結果を見ると、それぞれ 7.4%、9.4% となっており、「テスト／コントロール」の結果（1.2%）とは大きく差があるため、バイアスの存在が確認できます。

しかし実際には、テストグループとサンプルの同質性を担保したコントロールグループを作るのは非常に困難です。「日本のほとんどのテレビ番組で流す CM」の効果を測定したい場合に、「その CM を当てないコントロールグループを作ること」は、とても難しいでしょう。

また調査会社は、広告の運用まで担当しないことが多いので、そのような場合は、テスト設計の背後にあるバイアスを取り除くために、統計手法を使って偏りを調整する「キャリブレーション（校正）」も必要です。

Google マップのキャンペーンでは、どうやってビジターバイアスを排除した？

ここで、傾向スコア（後述）を使って、ブランドリフトをキャリブレーションする Google の事例を紹介します。Google China は、2019 年の中国の大型連休に、日本を訪れた中国人旅行者を対象に「Google マップ」の知名度、好感度、支持度を上げるためのデジタルマーケティングキャンペーンを実施しました。下がそのときの広告クリエイティブです。

キャンペーンの効果を評価するために調査を実施。しかし、キャンペーンで使用した中国のメディアチャネルは、ランダム化比較試験をサポートしていないため、広告の接触者と非接触者でブランドリフトを測ると、ビジターバイアスがかかります。そこで傾向スコアを使って、そのビジターバイアスを排除しました。

分析手順は以下の通りです。

_{傾向スコアマッチングの手順}

・手順 1：「性別」「年齢」「居住地」や「旅行目的」などのロジスティック回帰モデルで傾向スコアを推定

・手順 2：接触者と非接触者の傾向スコアをマッチング

・手順 3：マッチング後の接触者と非接触者グループの傾向スコア分布が同じことを確認

・手順 4：ブランドリフトを再計算

・手順 5：マッチング前後のブランドリフトを検証

「傾向スコア」とは「施策群に割り当てられる確率」、より厳密にいうと「観測された共変量のベクトルに与えられた条件付き確率」です。今回の事例でいうと「広告に接触する確率」が該当します。

まず手順 1で、「性別」「年齢」「居住地」や「旅行目的」などのロジスティック回帰モデルで、この傾向スコア（広告に接触する確率）を推定する。

次に手順 2 で、「手順 1」で推定した傾向スコアが同じ「非接触」グループと「接触」グループをマッチングさせます。

傾向スコアが同じグループなので、必然的に 2 つのグループの「性別」「年齢」「居住地」「旅行目的」などはバランスが取れており、手順 3 で傾向スコアの分布を検証しても、マッチング後の非接触者と接触者の傾向スコアは同じになります。

手順 4 と手順 5 で、傾向スコアマッチングの前と後のブランドリフトを検証します。結果は、以下の通りです。

_{ブランドリフトの検証}

表の中の数字は、Google マップの知名度、好感度、支持度などといった、今回のキャンペーンの KPI です。マッチング後のブランドリフトは、マッチング前よりも 5 〜 7 ポイント低くなりました。この処理をすることでビジターバイアスを排除でき、キャンペーンの真の効果測定が可能になるのです。

広告の効果測定は「アカウンタビリティ」から「インクリメンタリティ」へ

広告の効果測定は、広告がきちんと機能していることを証明する「アカウンタビリティ（説明責任）」だけではありません。ここから、その広告の純増効果である「インクリメンタリティ」を計測し、ビジネスを成長させる必要があります。

インクリメンタリティとは、「広告施策を実施しなければ発生しなかったであろう、一連のマーケティング施策から生じるビジネス成果」と定義できます。その測定方法について、もう 1 つ事例を取り上げてみましょう。

2019 年の下半期にGoogleは「検索数」と「検索利用者数」を加速させるキャンペーンを実施しました。その効果を測定するために、いくつかの都道府県をコントロールグループに設定し、残りの都道府県でメディアキャンペーンを実施。その後「Causal Impact」という統計分析のツールを使って検索数や検索ユーザー数のリフト（施策の実行による効果の差分）を測定しました。

CausalImpact とは、Google が開発した「キャンペーンが KPI にもたらす因果的影響を時系列から推定するためのパッケージ」で、GitHub でも公開しています。ビジネス応用例が多いですが、学術論文にも多く引用されています。

分析手順は次の通りです。

_{効果検証のワークフロー}

・手順 1：コントロール地域を選択・手順 2：コントロール地域の選択にバイアスが入っていないか検証・手順 3：コントロール地域でキャンペーンを実施・手順 4：CausalImpact でキャンペーンの効果を測定・手順 5：測定結果を検証

手順 2 でコントロール地域の選択を検証するには、「キャンペーン前の期間」における検索数の時系列データを 2：1 の比率に分割し、Causal Impact を実施します。その期間中にはプロモーションキャンペーンがなかったため、リフトはないと予想できます。

_{コントロール地域の選択を検証}

上段のグラフは「実際の検索数」または「検索ユーザー数」を表しています。黒の実線は実績値、青の点線はテレビ CM を放映しなかった場合の予測値です。予測値はコントロールグループの時系列データから構築したモデルによって、推定しました。実績値と予測値の差分を表しているのが中央のグラフで、その差分の累積を下段のグラフで表しています。ご覧の通り、キャンペーン期間前には検索数のリフトが見られませんでした。

もしこの時点で有意なリフトが確認できた場合は、手順 1 に戻り、コントロールグループの選定条件を厳しくして、再び手順 2 で検証します。

次に手順 3 でキャンペーンを実施し、手順 4 でキャンペーン期間中と期間後の検索数のリフトがあったかどうかを検証します。これは 5% の有意水準において、CausalImpact で分析しました。

グラフの下段は「検索数の累積のリフト」とその「信頼区間」を表しており、大幅なリフトが確認できます。この時、p 値が 0.001 と非常に小さく、プロモーションキャンペーンの検索数にリフト効果があると言えるでしょう。

優れた効果測定の 4 条件

ここまで見てきた通り、広告効果測定においてそのアカウンタビリティを果たすだけではなく、インクリメンタリティを正確に計測しビジネスの成長を後押ししたかどうかが、重要な視点なのです。それを加味して、「優れた効果測定」とは次の 4 条件を満たさなければならないと考えます。

条件 1：重要なものを測定

リーチ、ブランドへの影響、販売への影響など、企業のビジネスにとって本当に重要なものを測定します。

条件 2：すべてにわたって測定

クロスデバイス、クロスメディア、クロスパブリッシャーの測定を行います。

条件 3：日々のマーケティングでのテストと学び

テストと学びのフレームワークで、日々のマーケティング活動を測定します。

条件 4：方法論の重要性

正確なインクリメンタリティを測定するために、厳密な科学的方法論を用います。

また、優れた広告効果測定を追求するには、社内での部門を超えた取り組みと、業界全体での取り組みが必要です。業界団体や業界スタンダードも大切で、事業主や調査会社、広告メディア、さらには正確なインクリメンタリティを測定するための厳密な科学的方法論を用いる学術研究機関が一緒になって、透明かつ開放的な効果測定の場を作っていく必要があります。