Acabo de explicar algo a un estudiante y no sé, desperté de pronto con aquello del tamaño de efecto. Concepto tan manoseado por tantos y tantos. De partida señalar que el tamaño de efecto no es un cálculo para hallar efectos en función de resultados estadísticos. Lo digo porque hoy escuché una aberración respecto a eso: «bueno, si se tienen estudios anteriores que permiten determinar un tamaño de efecto 0.21 con un Anova One Way, la muestra que debes tener para buscar ese tamaño de efecto es de 330 sujetos».
¿Perdón? ¿Debo buscar una muestra para obtener un tamaño de efecto pequeño? Es primera que escucho tal horror. Que un investigador vaya por la vida buscando tamaños de efecto pequeños. ¡Cuando es todo lo contrario! No creo que exista un investigador de los «tamaños de efecto pequeños». Pero veamos por qué y cómo desperté.
A partir de la salida de resultados usando el excelente programa G*Power version 3, obtuve lo siguiente:
Como verán. La idea era obtener el tamaño de efecto a priori suponiendo que se trabajaría con tres grupos de 20 sujetos cada uno. Las diferencias de medias tienen relación con una medida de comprensión del lenguaje y los grupos han sido conformados en función de rangos de edad. Las medias y la desviación estándar informadas fueron obtenidas de un artículo de investigación que había realizado la misma investigación previamente.
Como se observa, el cálculo del tamaño de efecto es 0.21. Según Cohen, está entre pequeño y medio. Y por supuesto, se traslada dicha estimación a la ventana de la izquierda para obtener el tamaño muestral que arrojaría dicho tamaño de efecto con un alfa de 0.05 y una potencia de 0.95. El tamaño de la muestra entonces es 333.
Pues bueno, según la lógica del argumento anterior, entonces diríamos: «Que bien, necesito 333 sujetos para obtener ese magro tamaño de efecto» (soy feliz!). La verdad, sin embargo, es que la información que obtenemos es para conocer otra cosa. Veamos.
Con los datos reales obtenemos un tamaño de efecto de 0.21 con las medias allí representadas y con un tamaño muestral de 60. Digamos de entrada que el tamaño de la muestra no alterará el tamaño de efecto, lo que sí lo hará es la diferencia de medias. ¿Para qué entonces el cálculo? Con una muestra n=60, la significación estadística de la diferencia de medias no permitirá rechazar la hipótesis nula, pero con una muestra n=333, se mantendrá ese tamaño de efecto, pero la diferencia de medias sí será estadísticamente significativa ¡Aquí es donde desperté!
¿A quién diablos le puede interesar buscar más sujetos y mejorar el tamaño de muestra para mantener el tamaño de efecto? Para lo único que interesa aumentar la muestra, bajo estas pobres diferencias de medias, es para obtener diferencias de medias estadísticamente significativas. Si es que te interesa, porque con ello seguimos sin obtener significación sustantiva.
Lo que realmente urge es hallar siempre diferencias de medias que aumenten el tamaño de efecto, porque con ello nos aseguramos de que el factor elegido tenga el mayor efecto posible sobre la variable respuesta, ¿no es lo que todo científico desea?. Mayores medias es un tema teórico, elegir el factor adecuado, evitar las contaminantes o variables intervinientes y medir con la mayor fiabilidad y sensibilidad posible la variable dependiente. El sustento pertinente para explicar por qué debería obtener mejores diferencias de medias es un aspecto esencialmente teórico. No es un tema estadístico.
Con pobres tamaños de efecto entonces podría decidir: «Creo que algo falló en nuestra investigación, vamos a revisar». Con tamaños de efecto decentes en cambio y aún cuando no obtengamos diferencias estadísticamente significativas, todavía podemos pensar «bien, el tamaño de muestra no es suficiente, pero aún vale la pena investigar».
¿Buscar tamaños de efecto pequeños? ¿Para qué?