Cómo no ejecutar una prueba A / B

Cómo no ejecutar una prueba A / B

Si ejecuta pruebas A / B en su sitio web y comprueba regularmente los experimentos en curso para obtener resultados significativos, es posible que esté siendo víctima de lo que los estadísticos llaman errores repetidos de prueba de significancia. Como resultado, aunque su tablero dice que un resultado es estadísticamente significativo, existe una buena posibilidad de que sea realmente insignificante. Esta nota explica por qué.

Fondo

Cuando un panel de pruebas A / B dice que hay un «95% de probabilidad de superar al original» o «un 90% de probabilidad de significación estadística», se hace la siguiente pregunta suponiendo que no hay una diferencia subyacente entre A y B, ¿con qué frecuencia ves una diferencia como la que vemos nosotros en los datos por casualidad?

La respuesta a esa pregunta se llama nivel de significancia, y los “resultados estadísticamente significativos”, significan que el nivel de significancia es bajo, por ejemplo, 5% o 1%. Los tableros usualmente toman el complemento de esto (por ejemplo, 95% o 99%) y lo reportan como una “posibilidad de superar al original” o algo así.

Sin embargo, el cálculo de significancia hace una suposición crítica que probablemente haya violado sin siquiera darse cuenta: que el tamaño de la muestra se fijó de antemano. Si en lugar de decidir con anticipación, «este experimento recopilara exactamente 1000 observaciones», dice, «lo ejecutaremos hasta que veamos una diferencia significativa», todos los niveles de significancia informados pierden significado.

Este resultado es completamente contradictorio y todos los paquetes de pruebas A / B lo ignoran, pero intentaré explicar la fuente del problema con un ejemplo simple.

Ejemplo

Suponga que analiza un experimento después de 200 y 500 observaciones. Hay cuatro cosas que pueden pasar:

Escenario 1Escenario 2Escenario 3Escenario 4
Después de 200 observacionesInsignificanteInsignificante¡Significativo!¡Significativo!
Después de 200 observacionesInsignificante¡Significativo!Insignificante¡Significativo!
Fin del experimentoInsignificante¡Significativo!Insignificante¡Significativo!

 

Suponiendo que los tratamientos A y B son iguales y el nivel de significancia es del 5%; entonces, al final del experimento, tendremos un resultado significativo del 5% del tiempo.
Pero, supongamos que detenemos el experimento tan pronto como haya un resultado significativo. Ahora mire las cuatro cosas que podrían suceder:

Escenario 1Escenario 2Escenario 3Escenario 4
Después de 200 observacionesInsignificanteInsignificante¡Significativo!¡Significativo!
Después de 500 observacionesInsignificante¡Significativo!juicio detenidojuicio detenido
Fin del experimentoInsignificante¡Significativo!¡Significativo!¡Significativo!

 

La primera fila es la misma que antes, y los niveles de significancia informados después de 200 observaciones están perfectamente bien.

Pero ahora mire la tercera fila. Al final del experimento, asumiendo que A y B son en realidad lo mismo, hemos aumentado la proporción de resultados significativos en relación con los insignificantes.

Por lo tanto, el nivel de significancia informado, el “porcentaje de las veces que la diferencia observada se debe al azar”, será incorrecto.

¿Qué tan grande es este problema?
Suponga que su tasa de conversión es del 50% y desea probar para ver si un nuevo logotipo le da una tasa de conversión de más del 50% (o menos). Detiene el experimento tan pronto como haya un 5% de significancia o cancela el experimento después de 150 observaciones.

Ahora suponga que su nuevo logo no hace nada. ¿Qué porcentaje de las veces su experimento encontrará erróneamente un resultado significativo? No más del cinco por ciento, ¿verdad? ¿Quizás un seis por ciento, a la luz del análisis anterior?

Pruebe con el 26,1%, más de cinco veces de lo que probablemente pensó que era el nivel de significancia. Esta es una especie de escenario en el peor de los casos, ya que realizamos una prueba de significancia después de cada observación, pero no es algo inaudito. Al menos un marco de prueba A / B que existe en realidad proporciona código para detener automáticamente los experimentos después de que haya un resultado significativo. Eso suena como un buen truco hasta que te das cuenta de que es una abominación estadística.
Las pruebas de significancia repetidas siempre incrementan la tasa de falsos positivos, es decir, pensarás que muchos resultados insignificantes son significativos (pero no al revés).

El problema estará presente si alguna vez se encuentra «mirando a escondidas» los datos y deteniendo un experimento que parece estar dando un resultado significativo. Cuanto más mires, más se desvanecerán tus niveles de significación. Por ejemplo, si echa un vistazo a un experimento en curso diez veces, lo que cree que es un 1% de significación es en realidad solo un 5% de significación. Aquí hay otros valores de significancia reportados que necesita ver solo para obtener una significancia real del 5%:

Echaste un vistazo

Para obtener un 5% de significado real, necesita …

1 vez2.9% reportó significancia
2 veces2.2% informó significancia
3 veces1.8% informó significancia
5 veces1.4% reportó significancia
10 veces1.0% reportó significancia

 

Decida por sí mismo qué tan grande es el problema que tiene, pero si dirige su negocio comprobando constantemente los resultados de las pruebas A / B en curso y tomando decisiones rápidas, esta tabla debería ponerle la piel de gallina.

¿Qué se puede hacer?

Si ejecuta experimentos: la mejor manera de evitar errores repetidos de prueba de significancia es no probar la significancia repetidamente.

Decida el tamaño de la muestra con anticipación y espere hasta que termine el experimento antes de comenzar a creer en la «posibilidad de superar las cifras originales» que le brinda el software de prueba A / B. «Mirar a escondidas» los datos está bien siempre que pueda evitar detener un experimento antes de que haya seguido su curso. Sé que esto va en contra de algo en la naturaleza humana, así que quizás el mejor consejo sea: ¡no mirar!

Dado que va a fijar el tamaño de la muestra de antemano, ¿qué tamaño de muestra debería utilizar? Esta fórmula es una buena regla general:

n = 16σ2δ2norte=dieciséisσ2δ2

Dónde δδ es el efecto mínimo que desea detectar y σ2σ2 es la varianza de la muestra que espera. Por supuesto, es posible que no conozca la varianza, pero si es solo una proporción binomial que está calculando (por ejemplo, una tasa de conversión porcentual), la varianza viene dada por:

σ2= p × ( 1 – p )σ2=pag×(1-pag)

Comprometerse con un tamaño de muestra mitiga completamente el problema que se describe aquí.

ACTUALIZACIÓN, mayo de 2013: Puede ver esta fórmula en acción con mi nueva calculadora interactiva de tamaño de muestra . Ingrese el tamaño del efecto que desea detectar, establezca los niveles de potencia y significación; obtendrá un número fácil de leer que le indicará el tamaño de muestra que necesita. FIN DE LA ACTUALIZACIÓN

Si escribe software de pruebas A / B: no informe los niveles de significancia hasta que finalice un experimento y deje de usar los niveles de significancia para decidir si un experimento debe detenerse o continuar.

En lugar de informar sobre la importancia de los experimentos en curso, informe la magnitud de un efecto que se puede detectar dado el tamaño de muestra actual. Eso se puede calcular con:

δ= (tα / 2+tβ) σ2 / n—√δ=(tα/2+tβ)σ2/norte

Donde los dos ttson las estadísticas t para un nivel de significancia dado α / 2α/2 y poder ( 1 – β)(1-β).

Por doloroso que parezca, incluso puede considerar excluir la “estimación actual” del efecto del tratamiento hasta que termine el experimento. Si esa información se utiliza para detener experimentos, los niveles de significancia informados son basura.

Si realmente desea hacer estas cosas correctamente: arreglar un tamaño de muestra por adelantado puede ser frustrante. ¿Qué pasa si su cambio es un gran éxito, no debería implementarlo inmediatamente? Este problema ha perseguido al mundo médico durante mucho tiempo, ya que los investigadores médicos a menudo quieren detener los ensayos clínicos tan pronto como un nuevo tratamiento parezca efectivo, pero también necesitan hacer inferencias estadísticas válidas sobre sus datos.

Aquí hay un par de enfoques utilizados en el diseño de experimentos médicos que alguien realmente debería adaptar a la web:

Diseño de experimentos secuenciales: el diseño de experimentos secuenciales le permite configurar puntos de control por adelantado donde decidirá si continuar o no el experimento, y le brinda los niveles de significancia correctos.
Diseño de experimentos bayesianos: con el diseño de experimentos bayesianos puede detener su experimento en cualquier momento y hacer inferencias perfectamente válidas. Dada la naturaleza en tiempo real de los experimentos web, el diseño bayesiano parece ser el camino a seguir.

Conclusión

Aunque parecen poderosas y convenientes, las vistas de panel de los experimentos A / B en curso invitan a un uso inadecuado.

Siempre que se utilicen junto con una “regla de detención” manual o automática, las pruebas de significación resultantes simplemente no son válidas. Hasta que los diseños de experimentos secuenciales o bayesianos se implementen en el software, cualquiera que ejecute experimentos web solo debe ejecutar experimentos en los que el tamaño de la muestra se haya fijado de antemano y ceñirse a ese tamaño de muestra con una disciplina casi religiosa.

Fuente: https://www.evanmiller.org/how-not-to-run-an-ab-test.html

Traducido por: https://juegosiesta.com/

Volver al inicio
18+
Verificación de edad Este sitio web requiere que tengas más de 18 años para ingresar SÍ, TENGO MÁS DE 18 AÑOS Todavia no tengo 18 años Lo siento, no eres mayor de edad para ver este contenido