Conocer el impacto de la publicidad debería ser fácil: "¿mostrar mis anuncios ha influido más en el comportamiento de los clientes que si no los hubiera mostrado?". Hemos desarrollado una tecnología que facilita esta comparación simple con la identificación de los usuarios que han visto el anuncio. Son los equivalentes del grupo de control de los usuarios que han visto el anuncio en un experimento aleatorio. En este artículo expondremos las ventajas de esta tecnología con respecto a otros métodos experimentales y su importancia para los modelos de atribución.

En un reciente artículo de Think with Google se explicaba cómo medir el verdadero impacto del marketing utilizando experimentos controlados. En este artículo profundizaremos en el reto de realizar experimentos de anuncios online que sean precisos.

El reto de medir la eficacia de los anuncios

Muchos anunciantes piensan que es fácil evaluar el impacto de la publicidad, tan solo hay que comparar los resultados de una campaña con otra. Lamentablemente, las comparaciones de modelos de atribución simples o, incluso, más complejos no siempre atribuyen el crédito adecuado a los anuncios: no todas las correlaciones son causales. Los experimentos en los que intervienen los grupos de tratamiento y de control representan la metodología estándar científica para averiguar qué es lo que funciona y qué debe desempeñar un papel importante en la estrategia de atribución de un anunciante. Por lo tanto, ¿cuál es el experimento publicitario ideal?

Características de los experimentos publicitarios precisos

Un experimento publicitario científico tiene dos características principales: un grupo objetivo bien definido y un control preciso sobre quién puede ver los anuncios. Una campaña publicitaria nunca llega a todos los usuarios de la audiencia objetivo porque si un usuario ve un determinado anuncio depende de su comportamiento, la puja competitiva entre los anunciantes y numerosos parámetros de segmentación. El resultado es que los usuarios a los que se ha llegado pueden ser muy distintos de aquellos a los que no se ha llegado. Para medir la eficacia publicitaria establecemos una comparación simple: "¿mostrar los anuncios ha cambiado más el comportamiento de los usuarios que si no se muestran?". Para ello, dividimos aleatoriamente a nuestros usuarios objetivo en dos grupos e intentamos mostrar anuncios a uno y los bloqueamos en otro. En términos científicos esto crea un grupo de tratamiento con usuarios que han visto anuncios y un grupo de control con usuarios a los que se hubieran mostrado los anuncios pero se ha decidido no hacerlo. Se trata de una sencilla comparación de usuarios que han visto los anuncios frente a los que los habrían visto.

Figura 1: El experimento ideal compara a los usuarios que han visto el anuncio con los que lo habrían visto. Los usuarios tienen un comportamiento de compra distinto, tal como se ilustra con los usuarios de tipo 1 (camiseta lisa) y de tipo 2 (camiseta a rayas). Los grupos que queremos comparar deben contener la misma combinación de usuarios. De lo contrario, estaríamos comparando "peras con manzanas". En un experimento publicitario científico con un grupo de usuarios objetivo se divide a los usuarios a los que se ha llegado (zona verde) en grupos de tratamiento y de control equilibrados. Queremos comparar las acciones de los usuarios de tratamiento (de color blanco) con las de sus equivalentes del grupo de control (de color gris). Pero, ¿cómo podemos identificar a los usuarios que habrían visto los anuncios?

Enfoque 1: campañas de anuncios de servicio público y de marcadores de posición

Puede que pienses: "Conozco las pruebas con placebo, son fáciles. Solo tengo que dividir la lista de segmentación por la mitad y configurar otra campaña con un anuncio de marcador de posición que no esté relacionado con el anunciante, por ejemplo, un anuncio de una organización benéfica (es decir, un anuncio de servicio público o PSA)". Con un sistema de precios de coste por cada mil impresiones (CPM) y un servidor de anuncios muy simple puede funcionar, pero tiene el coste del medio de los anuncios de marcador de posición para el anunciante o el editor. Sin embargo, los servidores de anuncios modernos que usen un sistema de precios de coste por clic (CPC) o por acción (CPA) y optimización de creatividades distorsionan estas pruebas de PSA. Por ejemplo, si la red publicitaria decide mostrar anuncios que generen más ingresos con más frecuencia, cualquier diferencia en el porcentaje de clics (CTR) entre los anuncios del anunciante y los anuncios de marcador de posición provocará que las creatividades con un CTR se muestren más veces. Además, la red publicitaria mostrará los anuncios a los tipos de usuarios que tienen más probabilidades de hacer clic. Asimismo, es muy posible que los usuarios que deciden hacer clic en un anuncio de artículos deportivos sean muy distintos de los que hacen clic en el anuncio de una organización benéfica, por lo que se vuelven a comparar "peras con manzanas". Por lo tanto, estas pruebas de PSA pueden generar resultados erróneos, que van desde excesivamente optimistas hasta falsamente negativos.

Figura 2: Las pruebas de PSA no funcionan en los sistemas publicitarios modernos. Las redes publicitarias tratan la creatividad del anunciante y el anuncio de servicio público de un modo distinto. En este caso, las optimizaciones del servidor de anuncios provocan que el PSA llegue a un grupo distinto, lo que crea grupos descompensados de usuarios: unos que han visto el anuncio y otros que han visto el PSA. Un análisis que compare a los usuarios en las zonas de color verde de los grupos de tratamiento y de control no será válido: los seis usuarios del grupo de tratamiento que han visto el anuncio incluyen cinco camisetas a rayas, mientras que el grupo de control solo tiene tres. Puede que ahora las diferencias en el comportamiento de conversión se deban más a una combinación distinta de los tipos de usuarios que al efecto del anuncio.

Enfoque 2: intento de aplicar el tratamiento

Existe otra forma de analizar los experimentos sin una campaña de anuncios de marcador de posición: solo se tiene que ignorar toda la información de visibilidad en los grupos de tratamiento y de control. Por ejemplo, si dividimos aleatoriamente nuestra audiencia objetivo en dos listas y mostramos los anuncios solo a una, podemos comparar el comportamiento de todos los usuarios, no solo el de los que han visto un anuncio, entre las dos listas para medir la repercusión de la publicidad. Si se compara a todos los usuarios, independientemente de su oportunidad de ver los anuncios, se sigue comparando adecuadamente a los usuarios que han visto el anuncio con los que lo habrían visto, pero la comparación se complicaría con la distorsión añadida de los usuarios a los que no se les ha mostrado el anuncio o no se les habría mostrado. Este método, que se denomina "intento de aplicar el tratamiento", es científicamente correcto, ya que compara manzanas con manzanas. Pero la distorsión añadida de incluir a los usuarios a los que no se ha llegado que no formarían parte del experimento normalmente es bastante grande, lo que nos impulsa a buscar una solución mejor.

Figura 3: en el tipo "intento de aplicar el tratamiento" se ignora la información de visibilidad. La comparación científicamente correcta se efectúa en todos los usuarios de tratamiento y de control. La comparación del método de "intento de aplicar el tratamiento" incluye la distorsión de los usuarios a los que no se ha llegado en la zona de color a la que teníamos intención de llegar y sus equivalentes del grupo de control. Estos últimos usuarios a los que se habría mostrado el anuncio están en alguna parte de la zona gris, pero no sabemos dónde. Pero si comparamos el grupo de tratamiento completo (colores verde y rojo) con el grupo de control (color gris), no se modifica la combinación de usuarios y se puede efectuar una comparación justa.

Anuncios fantasma: una solución ideal para los experimentos de anuncios

La solución ideal combina lo mejor de ambos mundos: comparaciones de manzanas y manzanas de los usuarios a los que realmente ha llegado la campaña del anunciante. A esta tecnología la llamamos "anuncios fantasma". Estos anuncios se registran cuando queremos mostrar el anuncio, garantizando que los usuarios del grupo de control a los que se habría mostrado el anuncio equivalen a los usuarios del grupo de tratamiento que realmente han visto el anuncio. Como no se utilizan dos creatividades distintas, el servidor de anuncios trata a los usuarios de tratamiento y de control de forma idéntica, incluso con el sistema de precios de CPC o CPA, lo que evita las distorsiones que afectan a las pruebas de PSA. Y debido a que permite excluir a los usuarios que no han tenido la oportunidad de ver el anuncio, los anuncios fantasma nos permiten medir los efectos de incremento sin distorsiones con una precisión 50 veces superior al método de intención de aplicar el tratamiento.

Los anuncios fantasma tienen ventajas adicionales. En primer lugar, ni el anunciante, ni la red publicitaria ni el editor tienen el coste de publicar PSA. En segundo lugar, gracias a un grupo de control sin coste, se pueden diseñar experimentos más complejos e informativos. En tercer lugar, en vez de comparar el anuncio del anunciante con un anuncio artificial irrelevante, el experimento realiza la medición con una línea base de competitividad relevante: se habría mostrado a los usuarios los anuncios que se mostrarían habitualmente cuando el anunciante desactiva los anuncios. En cuarto lugar, los anuncios fantasma que registran cuándo ve el usuario el anuncio (por ejemplo, visibilidad del anuncio) nos ayudan a descartar la distorsión de los usuarios a los que se había mostrado un anuncio pero no lo han visto realmente.

Figura 4: Los anuncios fantasma se pueden mejorar más con la información de visibilidad de anuncio. Este tipo de anuncios nos permite registrar a qué usuarios se les habría mostrado el anuncio y otra información relacionada con la visibilidad, como la visibilidad de los anuncios fantasma para mejorar la medición. La mejor comparación de la eficacia publicitaria sería comparar a los usuarios de la zona verde cuyos anuncios han sido visibles, es decir, se han visto.

El futuro

No es fácil crear la prueba ideal. Al igual que sucede con las pruebas de PSA, se pueden producir numerosos errores. Las nuevas tecnologías, como la visibilidad de los anuncios, las pujas en tiempo real, la nueva segmentación, el remarketing y la personalización en función del usuario, conllevan aspectos de ingeniería complejos y requieren una validación rigurosa. A Google se le conoce por invertir en nuevas tecnologías, y los anuncios fantasma es una de ellas. El caso de éxito de DefShop, minorista de ropa especializada online de Europa, demuestra esta nueva solución de medición publicitaria.

Los anuncios fantasma ayudarán a validar y mejorar los modelos de atribución actuales y a crear una revolución en la medición de la eficacia publicitaria. Esperamos que el sector adopte los experimentos de anuncios fantasma como una tecnología clave para evaluar y optimizar la inversión publicitaria.