Una de las particularidades de realizar análisis paramétricos en donde se deben cumplir supuestos, consiste en la evaluación del comportamiento aproximadamente normal de las variables dependientes. Quienes ejecuten las acciones que están usualmente asociadas a la evaluación de este supuesto lo sabrán desde hace mucho: lo raro es que la variable ajuste al supuesto de normalidad.

De casualidad me he topado con el tema en R-Bloggers y lo dicho allí me produjo cierto alivio de culpa. En particular porque en muchas ocasiones y a pesar de mis intentos por hacer cambios, he debido trabajar con variables que de acuerdo a los tests estadísticos disponibles para ello, no ajustaban a la Normal. ¡Qué terror! ¿Y si alguien, con un celo de rigor elevado, criticara el haber trabajado con variables no normales y los resultados que se deriven de ello?. Bueno, relajo estimados. No es tan terrible y al parecer en la comunidad analítica hay ahora cierto grado de aceptación que esto puede ocurrir y que además, las pruebas estadísticas para detectar desvíos de la normalidad son todo menos confiables.

En resumidas cuentas, cuando uno desea determinar si una o unas variables se comportan aproximadamente normal, puede acudir a dos aproximaciones bastante conocidas:

  1. Los tests de significación para determinar normalidad, entre ellos los más conocidos son Shapiro-Wilks y Kolmogorov-Smirnov. El primero suele usarse para muestras pequeñas, usualmente 120 o menos sujetos, mientras que el segundo se utiliza para muestras grandes.
  2. Las herramientas gráficas, como el histograma, a veces acompañado de una curva de densidad kernel, o los más comunes qqplot, diagramas de tallos y hojas y diagramas de cajas y bigotes.

¿Cuál es la recomendación de los blogueros al respecto? No tomar demasiado en cuenta los tests de significación porque sus resultados dependen fuertemente del tamaño de la muestra que esté siendo considerada. En efecto, con muestras grandes, incluso pequeñas desviaciones de la normalidad llevarán al rechazo de la hipótesis nula de distribución no distinta a la Normal, mientras que con muestras pequeñas, aún cuando sea extremadamente evidente que la distribución está sesgada, la prueba estadística no rechazará la hipótesis nula.

En consecuencia, ¿qué podemos hacer? Se recomienda evaluar mediante las pruebas estadísticas al uso, pero ése no puede ser el único criterio, ya que debe complementarse con la evaluación gráfica de las distribuciones de las variables. En caso de inconsistencia, quedarse con una evaluación personal a partir de toda la información. Algunos comentarias de los blogs sugieren sobretodo centrarse en los qqplots, herramienta mucho más confiables -al decir de ellos- que las pruebas estadísticas. También se recomienda acudir a pruebas no paramétricas para determinar ajuste a la normalidad, pero se previene que en los artículos de investigación quizás este proceder no sea aceptado.

A modo de recuerdo, en R los comandos típicos para ejecutar las clásicas pruebas de significación de ajuste a la Normal y los gráficos de exploración de comportamiento aproximadamente Normal son:

Kolmogorov-Smirnow Test:
ks.test(variable1, "pnorm", mean(variable1), sd(variable1))
Shapiro Test:
shapiro.test(variable1)
Diagrama de cajas y bigotes:
boxplot(variableDependiente~Factor)
Los gráficos qqplot:
qqnorm(variableDependiente); abline(30,17)

Hay muchas otras herramientas gráficas y más especificaciones en el programa R para poder visualizar los datos y tomar una decisión acerca del comportamiento, adecuado o no, de las variables en juego. Asi que ya se sabe, menos temor y no asustarse, como me ocurría a mi, cuando se enfrenten resultados estadísticos en donde el ajuste a la normalidad sea pobre… ¡usualmente lo será!

Algunas direcciones de interés:

http://stats.stackexchange.com/questions/12261/testing-normality

http://www.r-bloggers.com/normality-tests-don%E2%80%99t-do-what-you-think-they-do/

 

Deja tu comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.