Anhand der folgende Frage sollte es doch ganz einfach sein, die Wirkung von Werbung zu messen: "Haben Nutzer, die meine Anzeigen gesehen haben, sich anders verhalten als andere Nutzer?" Wir haben eine Technologie entwickelt, die diesen einfachen Vergleich ermöglicht, indem sie die Nutzer ermittelt, die unsere Anzeigen gesehen hätten. Dies ist in einem zufallsbasierten Test die Teilmenge der Kontrollgruppe, die den Nutzern in der Testgruppe entspricht, die die Anzeige gesehen haben. In diesem Artikel werden die Vorteile dieser Technologie im Vergleich zu anderen Testmethoden sowie ihre Bedeutung für Zuordnungsmodelle erläutert.

Ein ebenfalls kürzlich erschienener Artikel hier auf Think with Google befasst sich mit der Messung der tatsächlichen Wirkung von Marketinginitiativen mithilfe von kontrollierten Tests. In diesem Artikel nehmen wir die Herausforderungen präziser Onlineanzeigentests genauer unter die Lupe.

Die Messung der Anzeigeneffektivität – eine Herausforderung

Die Wirkung von Werbung zu messen ist doch eigentlich ganz einfach. Man vergleicht lediglich die Ergebnisse einer Kampagne mit den Ergebnissen einer anderen. Oder? Leider werden bei einfachen und auch bei komplexen Vergleichen mithilfe von Zuordnungsmodellen oft die Anzeigen nicht ausreichend berücksichtigt: nicht alle Zusammenhänge sind kausal. Versuche mit Test- und Kontrollgruppen sind wissenschaftlicher "Goldstandard" und sollten bei der Zuordnungsstrategie eines Werbetreibenden eine wichtige Rolle spielen. Wie sieht also der ideale Test zur Wirksamkeit von Werbung aus?

Bestandteile eines präzisen Anzeigentests

Ein wissenschaftlicher Ansatz zum Testen von Werbung besteht aus zwei Hauptbestandteilen: eine genau definierte Zielgruppe und die genaue Kontrolle darüber, welche Nutzer die Anzeigen sehen dürfen. Bei einer Anzeigenkampagne werden nie alle Nutzer innerhalb der Zielgruppe erreicht, da es vom Verhalten des Nutzers, von den abgegebenen Geboten der Werbetreibenden und von verschiedenen Targeting-Parametern abhängt, ob ein Nutzer eine Anzeige sieht. Es können also erhebliche Unterschiede zwischen den erreichten und nicht erreichten Nutzern bestehen. Um die Wirkung von Werbung zu messen, stellen wir diesen einfachen Vergleich an: "Zeigen die Nutzer, die die Anzeigen gesehen haben, ein anderes Verhalten als die Nutzer, die sie nicht gesehen haben?" Hierzu teilen wir die Zielgruppe nach dem Zufallsprinzip in zwei Gruppen ein, von denen die eine die Anzeigen sehen soll, die andere nicht. Im wissenschaftlichen Jargon entspricht dies einer Testgruppe und einer Kontrollgruppe. So entsteht ein einfacher Vergleich zwischen den Nutzern, die die Anzeige tatsächlich sehen, und denen, die sie gesehen hätten.

Abb. 1: Im idealen Test werden Nutzer, die eine Anzeige tatsächlich sehen, mit Nutzern verglichen, die die Anzeige theoretisch gesehen hätten. Nutzer unterscheiden sich in ihrem Kaufverhalten. Dies wird hier mittels Typ 1 (einfarbiges Shirt) und Typ 2 (gestreiftes Shirt) dargestellt. Die zu vergleichenden Gruppen müssen dieselbe Zusammensetzung aus Nutzertypen enthalten. Andernfalls vergleichen wir Äpfel mit Birnen. Bei einem wissenschaftlich korrekten Test werden die Nutzer einer Zielgruppe, die erreicht wurden (grüner Bereich), in eine Test- und eine Kontrollgruppe mit gleicher Zusammensetzung unterteilt. Verglichen werden sollen die Aktionen der Nutzer in der Testgruppe (weiß) mit den Aktionen ihrer Pendants in der Kontrollgruppe (grau). Aber wie können wir die Nutzer ermitteln, die die Anzeigen gesehen hätten?

Ansatz 1: Kampagnen mit Platzhalteranzeigen

Jetzt denken Sie vielleicht: "Ah, diese Art von Tests kenne ich. Die sind einfach. Ich teile meine Zielgruppenliste in zwei Hälften und richte eine zweite Kampagne mit einer Platzhalteranzeige ein, die nicht mit dem Werbetreibenden in Verbindung steht (z. B. eine Anzeige für eine gemeinnützige Organisation)." Bei einem CPM-Preismodell und einem sehr einfachen Anzeigenserver kann dies sogar funktionieren, für den Werbetreibenden oder Publisher fallen jedoch Mediakosten für die Platzhalteranzeigen an. Sind allerdings moderne Anzeigenserver mit CPC- oder CPA-Preismodellen und Creative-Optimierung im Spiel, führen diese Tests ganz schnell zu falschen Ergebnissen. Dies ist beispielsweise der Fall, wenn im Werbenetzwerk Anzeigen öfter geschaltet werden, die mehr Umsatz generieren. Bei einem Unterschied bezüglich der Klickrate der Anzeigen des Werbetreibenden und der Klickrate der Platzhalter werden die Anzeigen mit der höheren Klickrate öfter geschaltet. Darüber hinaus werden die Anzeigen auf die Nutzer ausgerichtet, bei denen davon auszugehen ist, dass sie darauf klicken. Und wahrscheinlich unterscheiden sich Nutzer, die auf eine Anzeige für Sportartikel oder -kleidung klicken, erheblich von den Nutzern, die auf eine Anzeige für eine gemeinnützige Organisation klicken, was dann zum "Vergleich von Äpfeln mit Birnen" führt. Falsche Ergebnisse sind bei diesen Tests folglich keine Seltenheit, sowohl in die positive als auch in die negative Richtung.

Abb. 2: Tests mit Platzhaltern führen in modernen Anzeigensystemen zu falschen Ergebnissen. Die Anzeige des Werbetreibenden und die Platzhalteranzeige werden im Werbenetzwerk unterschiedlich behandelt. Hier bewirken die Optimierungen des Anzeigenservers, dass die Platzhalteranzeige für eine andere Nutzergruppe geschaltet wird, was zu einem Ungleichgewicht zwischen der Testgruppe und der Kontrollgruppe führt. Ein Vergleich der Nutzer in den grünen Bereichen der Test- und Kontrollgruppe ist unzulässig: Unter den sechs erreichten Nutzern in der Testgruppe befinden sich fünf mit gestreiften Shirts, in der Kontrollgruppe jedoch nur drei. Es kann nun nicht mehr festgestellt werden, ob die Unterschiede im Conversion-Verhalten auf die unterschiedliche Zusammensetzung der Nutzertypen zurückzuführen ist oder auf die Wirkung der Anzeige.

Ansatz 2: "Intent-to-Treat"-Methode

Es gibt eine weitere Testmethode ohne Platzhalterkampagne: Die Informationen zur Präsenz werden sowohl in der Test- als auch in der Kontrollgruppe einfach ignoriert. Beispiel: Wir teilen die Zielgruppe nach dem Zufallsprinzip in zwei Gruppen und schalten Anzeigen für eine von ihnen. Dann vergleichen wir das Verhalten aller Nutzer aus beiden Gruppen (nicht nur der Nutzer, die eine Anzeige gesehen haben), um die kausale Wirkung der Werbung zu messen. Dies ist ebenfalls ein zulässiger Vergleich zwischen Test- und Kontrollgruppe, das Ergebnis wird jedoch durch die Nutzer verzerrt, die keine Anzeige gesehen haben oder gesehen hätten. Diese Methode ist wissenschaftlich einwandfrei. Es werden Äpfel mit Äpfeln verglichen. Der Anteil der Nutzer, die nicht erreicht werden und daher nicht Gegenstand des Tests sind, ist jedoch oft relativ hoch, sodass die Lösung immer noch nicht ideal ist.

Abb. 3: Informationen zur Präsenz werden bei der "Intent-to-Treat"-Methode ignoriert. Der wissenschaftlich einwandfreie Vergleich findet zwischen allen Nutzern in der Test- und allen Nutzern in der Kontrollgruppe statt. Dies schließt auch die Nutzer im roten Bereich ein, die wir nicht erreicht haben, sowie die Personen in der Kontrollgruppe. Die Nutzer in der Kontrollgruppe, die wir erreicht hätten, befinden sich im grauen Bereich, aber wir wissen nicht, wo genau. Die Zusammensetzung der Nutzer bleibt jedoch unverändert, sodass der Vergleich der gesamten Testgruppe (grün und rot) mit der Kontrollgruppe (grau) legitim ist.

Phantomanzeigen: die ideale Lösung für Anzeigentests

Die ideale Lösung ist eine Kombination aus den Vorteilen beider Methoden: ein wissenschaftlich einwandfreier Vergleich von Nutzern, die mit der Werbekampagne tatsächlich erreicht wurden. Hierzu werden "Phantomanzeigen" verwendet. Mithilfe solcher Anzeigen wird erfasst, wann die Anzeige geschaltet werden sollte, sodass die Nutzer in der Kontrollgruppe, die wir erreicht hätten, mit den tatsächlich erreichten Nutzern in der Testgruppe verglichen werden können. Und da nicht zwei unterschiedliche Creatives zum Einsatz kommen, werden Test- und Kontrollgruppe vom Anzeigenserver auch bei CPC- oder CPA-Preismodellen gleich behandelt, d. h. die Verzerrungen, die bei Tests mit Platzhaltern auftreten, bleiben aus. Die Nutzer, die keine Möglichkeit haben, die Anzeige zu sehen, können also herausgefiltert werden. Dies ermöglicht eine sehr genaue Messung von Steigerungseffekten (bis zu 50-mal genauer als bei der "Intent-to-Treat"-Methode).

Die Verwendung von Phantomanzeigen bietet noch weitere Vorteile. Erstens entstehen weder dem Werbetreibenden noch dem Werbenetzwerk oder dem Publisher Kosten für die Schaltung von Platzhaltern. Und mit einer kostenlosen Kontrollgruppe lassen sich komplexere Tests entwickeln. Zweitens wird die Anzeige des Werbetreibenden nicht mit einer irrelevanten künstlichen Anzeige verglichen, sondern mit einer wettbewerbsrelevanten Messbasis: Die Nutzer, die eigentlich erreicht worden wären, sehen das, was tatsächlich geschaltet wird, wenn der Werbetreibende seine Anzeigen deaktiviert. Und drittens können mit Phantomanzeigen, bei denen aufgezeichnet wird, wann ein Nutzer die Anzeige sieht (d. h. Sichtbarkeit), die Nutzer ausgeschlossen werden, für die eine Anzeige geschaltet wurde, die diese aber nicht gesehen haben.

Abb. 4: Phantomanzeigen können durch Informationen zur Anzeigensichtbarkeit zusätzlich optimiert werden. Mithilfe von Phantomanzeigen können wir erfassen, welche Nutzer wir erreicht hätten. Darüber hinaus lässt sich die Messung durch weitere präsenzbezogene Informationen wie die Sichtbarkeit der Anzeigen zusätzlich optimieren. Die optimale Messung der Anzeigeneffektivität wäre der Vergleich der Nutzer im grünen Bereich, für die die Anzeigen tatsächlich sichtbar waren.

Ausblick

Die ideale Lösung zu finden ist eine Herausforderung. Und es gibt viele Stolperfallen – ähnlich wie bei der Analysemethode mit Platzhaltern. Die Entwicklung von Lösungen wird durch neue Technologien wie Sichtbarkeit von Anzeigen, Echtzeitgebote, Retargeting/Remarketing und Nutzerpersonalisierung verkompliziert und erfordert strenge Kontrollen. Google ist bekannt für seine Investitionen in neue Technologien. Die Technologie mit Phantomanzeigen ist eine davon. In einer Fallstudie mit DefShop, einem europäischen Onlineshop für ausgefallene Kleidung, wird diese neue Lösung zur Messung von Werbung demonstriert.

Tests mit Phantomanzeigen ermöglichen es, vorhandene Zuordnungsmodelle zu überprüfen und zu optimieren und die Messung der Anzeigeneffektivität zu revolutionieren. Wir hoffen, dass sich die Tests mit Phantomanzeigen in der Branche als zentrale Technologie zur Analyse und Optimierung der Ausgaben für Anzeigen durchsetzen werden.