Ese momento, donde la distribución no es normal ¡y nos aterrorizamos!

Bienvenidos todos, como se habrán percatado ya hemos visto una serie de temas, y en el post anterior aprendimos sobre la distribución normal. Esa montañita simpática que nos pone de buen humor porque permitirá que hagamos análisis “más precisos” (esto ya lo veremos luego en otros posts, con calma).

El capítulo pasado vimos qué era la distribución normal y cómo es que se puede identificar, los que no pudieron mirar el post o quieren un pequeño recordatorio, pueden ir al post de distribución normal y revisar. Dicho sea de paso, la respuesta al post anterior sobre si la nota “15” estaba por encima del promedio de la clase podrán encontrarlo en la parte de comentarios de este post.

Bueno, luego de la maravillosa introducción vamos a lo nuestro, el objetivo de este episodio de “estadística para todos” es conocer cuándo una distribución es no normal, además les presentaremos los conceptos de asimetría y curtosis. Ok, antes que lloren, salten y quieran salir corriendo tomen una manzanilla, respiren y sigan conmigo.

Primero que todo, una distribución es no normal cuando dentro de la distribución de todos los números, existen muchos valores que son bajos o altos y por ello, el promedio no está justo al medio de toda la distribución. Se los describo de manera distinta, cuando la distribución es normal, la montaña o distribución es perfectamente simétrica donde los valores más frecuentes, el promedio y la mediana están todas al medio (ver sobre la distribución normal). Cuando no se da esto, entonces la cima de la montaña no está al centro. Mejor pondré un par de ejemplos gráficos:

Untitled

Esta vendría a ser una distribución normal porque los valores están distribuidos simétricamente.

exhibit_3_2

Estas dos serían distribuciones no normales porque ambas montañas son asimétricas. En el primer caso, hay muchos valores (o una gran frecuencia de valores) hacia la izquierda y en el segundo caso hay muchos valores hacia la derecha. Esto está todo muy abstracto y raro, mejor vamos a un ejemplo:

En una universidad existen dos salones de estadística, el A y el B. Ambos salones hicieron el examen final del curso y luego de dos semanas el profesor entregó las notas y se percató de algo bien raro. En los salones, que están compuestos por 10 alumnos cada uno habían las siguientes notas:

Salón A: (06, 08, 08, 08, 09, 09, 10, 11, 12, 15). En este caso, el promedio del salón A es de 9.6 sobre 20, lo cual es bien bajo.

En cambio en el salón B, las notas fueron todo lo contrario: (10, 13, 14, 15, 16, 17, 17, 18, 19, 19). En este caso, el promedio del salón B es de 15.8, lo cual es bien alto.

Como los puntajes de una distribución siempre van de izquierda a derecha y de menos a más entonces, como en el salón A hay muchos puntajes bajos (06, 08, etc) el pico de la curva está al lado izquierdo. (Ver el primer dibujo del ejemplo de arriba). En cambio, en el salón B hay muchos puntajes altos (17, 18, 19), entonces el pico de la curva va hacia el lado derecho (ver el segundo dibujo del ejemplo de arriba).

Recuerden, mientras más se repite un puntaje o nota más alto es el pico de la montaña. Mientras menos se repita, la montañita será más baja.

¡Muy bien! ¿Asustados? ¡Nada! seguro están muy bien. Ahora vamos a la asimetría y la curtosis. Tengan siempre en mente los dibujos de la curva o distribución porque estos les permitirá tener una idea gráfica de estos estadísticos.

La asimetría es un indicador que te permite saber cuán asimétrica o no simétrica es la distribución de los puntajes o la curva. Esta puede ser tanto positiva como negativa. Cuando la asimetría es muy grande (mayor a 3) tanto positiva, como negativa entonces podemos decir que nuestra distribución es asimétrica. Si la asimetría es igual a 0 somos personas muy felices porque nuestra distribución es normal. 

Cuando la asimetría es positiva, entonces el tope de la montaña está al lado izquierdo, cuando es negativa entonces el tope de la montaña está al lado derecho. En otras palabras, la asimetría es positiva cuando el pie de la montaña está a la derecha y la asimetría es negativa cuando el pie de la montaña está a la izquierda.

Mejor vamos a un ejemplo gráfico:

En el caso del salón A habían muchas personas con notas muy bajas, como muchas notas bajas se repiten entonces el pico de la montaña está a la izquierda, y a su vez el pie de la montaña está a la derecha. Por ello, la asimetría es positiva (así como este gráfico).

asimet1

Rplot

Por otro lado, en el caso del salón B, las notas resultaron ser bastante altas. Como muchas notas altas se repiten entonces el tope de la montaña está hacia el lado derecho. Por ende, el pie de la montaña está al lado izquierdo. En ese caso, la asimetría es negativa. (otro gráfico para amenizar el día).

asimet2

Rplot01

¿Hola? ¿Aún siguen aquí? ¡Muy bien! Entonces para cerrar con broche de oro vamos a la curtosis. 

La curtosis, nos permite conocer si alguno de nuestros datos se está repitiendo demasiado en nuestra distribución. Existe curtosis tanto positiva como negativa y cuando esta es igual a 0, (mientras saltamos en un pie) podemos decir que nuestra curva es simétrica o perfectamente normal. Mientras más grande es la curtosis o más alta es la montaña (nuestra distribución), más delgada es la montaña. Por otro lado, mientras más bajo es el pico de nuestra montaña, más gorda o gruesa será la distribución o cerro.

Vamos a un ejemplo gráfico, el Salon A y B volvieron a rendir un examen y la mayoría de personas del salón A obtuvieron un “15”, mientras que en el Salón B las notas estuvieron distrbuidas más o menos equitativamente entre todos, algo así (11, 13, 13, 14, 14, 14, 15, 16, 16). En el caso del salón A, como el promedio del salón “se repitió bastante”, más de lo esperado, la curtosis es positiva y alta. En el caso del salón B, como los puntajes se repitieron más a menos equitativamente, la curtosis es más baja y puede llegar a ser negativa. Aquí un ejemplo donde el primer caso la curtosis es negativa (Salón B) y el segundo caso positiva (Salón A). Una curtosis mayor a 8 quiere decir que la distribución de los puntajes es asimétrica, por lo que la curva o distribución de los puntajes, no es normal. 

MF-HedgeFund2-2

Recuerden que, si la curtosis y la asimetría son iguales a 0 entonces la distribución de los puntajes es normal. 

Finalmente, todo esto lo pueden encontrar en SPSS en Analizar – Estadísticos descriptivos – Describir – Opciones, así que no se preocupen, no tienen que dibujar su curva ni nada y estos no son análisis oscuros y raros que no son parte del SPSS. Así que todo muy bien.

¡Muy bien! Si han llegado hasta acá ¡Los felicito! Debo confesar que este post ha sido un poco más largo que los anteriores, pero espero que me haya dejado entender y que hayan pasado un buen rato. Ojo, pestaña y ceja, está no es la única manera de revisar normalidad, cuando entremos a T-Student, veremos que existen otras maneras de probar la normalidad de la distribución de nuestros puntajes. Pero para eso, tendremos que esperar un poco. El siguiente post, tratará sobre tipos de variables que existen en estadística. Para luego entrar a análisis inferenciales.

Como siempre, recuerden que si tienen alguna pregunta o comentario encantado de poder ayudarlos y en la medida de lo posible absolver sus dudas si es que las hay. Aparte, siempre pueden dejar un mensaje amable en el blog que es muy bien recibido. ¡Que les vaya muy bien!

¡Buenas vibras!

Bibliografía recomendada

Howell, D. (2013). Fundamental statistics for the behavioural sciences. Thomson & Wadsworth. USA.

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Conceptos y etiquetada , , , . Guarda el enlace permanente.

27 respuestas a Ese momento, donde la distribución no es normal ¡y nos aterrorizamos!

  1. Estimados todos, a modo de respuesta a la pregunta del post si es que la nota 15 estaba dentro del promedio de la clase, la respuesta es que no, justo la nota 15 está por encima de promedio de la clase. Esto se puede ver en la gráfica de la distribución normal, el 15 está pasando la media de la clase (la cima de la montaña) hacia el lado derecho que representan mayores notas.

    Me gusta

  2. Gabriela Conde dijo:

    Juan Carlos, que buen post! Me emociona ver que estos temas puedan ser explicados de manera tan sencilla! Gracias por tomarte el trabajo!! Sigue así! 😀

    Me gusta

    • Estimada Gaby Conde, muchas gracias a ti por la emoción y el interés de leer el blog y los posts. Sí, en realidad sí se puede explicar de manera más sencilla y divertida. De eso se trata. ¡Gracias por los buenos ánimos! Que todo vaya muy bien, ¡Buenas vibras!

      Me gusta

  3. Pingback: Análisis de varianza (ANOVA) ¿Alegría o terror? | Estadística para todos, hecho por un psicólogo

  4. Andrea Freire dijo:

    Muchas gracias por su trabajo. Junto con mi esposo somos fieles lectores. Adelante!!!

    Me gusta

  5. Pingback: ¿Qué rango tiene usted? Los rangos promedios. | Stats SOS

  6. Hola Juan Carlos Saravia Drago he tenido el gusto de revisar tu página y me parece que logras perfectamente transmitir la estadística con un lenguaje sencillo tan necesario. No obstante, serviría de mucho le agregaras referencias bibliográficas a tus textos para poder revisarlos o citarlos. me interesa puntualmente los valores que manejas para asimetria y curtosis para suponer normalidad. Saludos.

    Me gusta

    • Estimado Gilbher,
      Aprovecho un espacio que tengo para responderte. Me alegra mucho que esté siendo de utilidad mi blog. ¡Muchas gracias! Perfecto, voy a tomar en cuenta tu observación. Los siguientes posts les pondré referencias y eventualmente iré completando las referencias de los anteriores también.
      Los valores que utilizo de asimetría y curtosis los puedes revisar en estos textos:
      – Kline, R. B. (1998). Principles and practice of structural equation modeling. NY: Guilford Press.
      – Kline, R.B. (2005), Principles and Practice of Structural Equation Modeling (2nd Edition ed.). New York: The Guilford Press.
      Prometo ir poniendo estas referencias, especialmente cuando hay que presentar estas “reglas de dedo”.
      Espero que esto haya servido y gracias por comentar el blog.
      ¡Buenas vibras!

      Me gusta

  7. Pingback: ¿Muestras no paramétricas relacionadas? La W-wilcoxon | Stats SOS

  8. Juan Carlos Saravia Drago antes que todo felicitarte por los interesantes temas de estadística que explicas en tu blog me ayudas mucho a repasar temas que me interesan mucho. Seguiré leyendo cada post hasta terminarlo y hacerte más preguntas..! Ahora tengo una, ¿Cómo es que se haya la curtosis? Es decir como determinas que el puntaje es 8, como es la fórmula para hallar la curtosis. Muchas gracias!!

    Me gusta

    • Estimada Airin,

      Muchas gracias por escribir en Stats SOS. La curtosis se puede hallar con el SPSS utilizando estadísticos descriptivos. Con esta ruta, podrías llegar a conseguir la curtosis: Analizar – Estadísticos descriptivos – Describir – Opciones. Luego de pedirle al programa que te entregue la curtosis saldrá un valor y ese valor si es mayor a 8 en valor absoluto entonces la distribución de tus puntajes no muestra una forma normal.
      Por otro lado, la curtosis se calcula de la siguiente manera:

      Curtosis = (La sumatoria de (X – MediaX) a la cuarta potencia. /N * S a la cuarta potencia).-3

      En este caso: X son todos valores de tu variable, MediaX es el promedio de tu variable, N es el tamaño de tu muestra y S es la desviación estándar de la variable que quieres calcular su curtosis.

      Quisiera poner la fórmula en el comentario pero lamentablemente no me permite la página hacerlo.

      ¡Mucho éxito!

      Me gusta

  9. Laura dijo:

    Hola buenos días. existen varias pruebas para distribución normal y no parametricas, sin embargo me cuesta trabajo entender como definir muestras relacionadas con muestras independientes, al momento de plasmar las variables y entender cual el es objetivo de cada una de las pruebas como t-student, fisher, chi cuadrada, friedman, mc negar, u whitney, kruskal wallis, wilcoxon ya que encuentro artículos sobre éstos temas pero la manera en que lo desarrollan es poco entendible a diferencia de como Ud. lo muestra. Hasta dan ganas de ser investigador !!! le agradecería su ayuda. Buen día

    Me gusta

  10. Estimada Laura,

    Muchas gracias por escribir a Stats SOS y tus palabras. A ver, la gran diferencia entre pruebas relacionadas y muestras independientes es la siguiente:

    Las pruebas independientes son tal como el nombre lo dice, independientes entre sí. En ese caso, hombres y mujeres, jóvenes y adultos mayores son grupos que son independientes. Lo importante es que uno es “aparte del otro”. Desde ahí ya puedes hablar de hacer análisis con muestras “independientes” o no relacionadas como algunas que has mencionado como por ejemplo la t student o la U de Mann Whitney.

    Por otro lado, las muestras dependientes tiene algunas particularidades. Por lo general, son el mismo grupo que se mide múltiples veces a lo largo del tiempo.. Por ejemplo, a un grupo de mujeres se les toma una prueba de estrés hoy y al mismo grupo se le vuelve a tomar la misma prueba (o una prueba muy similar) una semana después. Entonces, estas son muestras relacionadas porque se quieren comparar a un grupo a lo largo del tiempo. Entonces las muestras están relacionadas porque las medidas (los puntajas del constructo de estrés) son iguales o muy similares pero se ha evaluado exactamente al mismo grupo.

    ¡Mucho éxito!

    Me gusta

  11. Natalie dijo:

    Hola Juan Carlos, excelentes posts, me han facilitado la vida con mi tesis.

    ¡Tengo una duda! He realizado la ruta que has mencionado, pero aparte, según recordaba de mis cursos, había hecho los análisis de Normalidad a través de Explorar (con dependientes y factores). La duda es: estoy comparando o voy a correlacionar distintas subescalas en muestras independientes (edad, sexo), entonces, ¿debo sacar la normalidad de cada grupo? Me refiero a: debo buscar la normalidad de Subescala A de Masculino y aparte normalidad de Subescala A femenino y así sucesivamente, o ¿podría sólo correr la normalidad de las subescalas sin segmentar y utilizar ello para los futuros análisis? Tengo 7 subescalas y 6 factores así que me encantaría saber si debo realizar todas esos análisis de normalidad.

    Y, además, deseo saber, si al obtener los datos estadísticos de Curtosis y Asimetría, los considero como salgan o debo realizar alguna operación con el error estándar.

    ¡¡Muchas gracias de antemano!!

    Me gusta

    • Estimada Natalie,

      Muchas gracias por escribir a Stats SOS. Voy a enumerar tus preguntas cosa que es más fácil de responder:
      1) Sí, tendrías que hacer normalidad para cada uno de los grupos siempre y cuando quieras comparar medias. Entiendo que es trabajoso pero lamentablemente, así son las reglas del juego :). Sin embargo, si quieres hacer correlaciones no hay necesidad de correr análisis de normalidad de tus puntajes porque no tiene que ver con la correlación.
      2) Si deseas ver la asimetría y la curtosis lo único que tienes que revisar son los estadísticos. Si la asimetría es mayor a 3 o la curtosis mayor a 8 entonces tienes fuertes evidencias que la distribución de tus puntajes no es normal. No tienes que realizar ninguna operación con el error estándar, existen procedimientos que lo hacen como por ejemplo el de Jarque-Bera pero es otra manera de revisar normalidad de los puntajes, no es indispensable.

      ¡Mucho éxito!

      Me gusta

      • Natalie dijo:

        ¡Muchas gracias! Tengo una última duda.

        He escuchado en muchos compañeros y algunos profesores que se usa Pearson cuando la distribución es normal, por lo que quería saber si es que había distintas teorías al respecto. Leí tu post de Pearson donde aclaras que no importa si la distribución es paramétrica o no, entonces me entró la duda sobre de dónde sale la creencia tan oída tanto en mis compañeros de social como clínica.

        ¡¡Gracias!!

        Me gusta

        • Estimada Natalie,

          Muchas gracias por escribir a Stats SOS. Sí, la distribución no tiene nada que ver con las correlaciones. ¿De dónde sale el mito? Lo que ocurre es que los datos que usa para la correlación de Spearman para hacer el análisis no asume una distribución normal porque son datos ordinales. En cambio, Pearson usa datos continuos que sí pueden estar distribuidos de manera normal. Entonces, quizás se asume que todos los datos que no se distribuyen de manera paramétrica no son continuos. Como te digo, estoy especulando un poco, pero creo que por ahí aparece el mito.

          ¡Mucho éxito!

          Me gusta

  12. Alexander dijo:

    Estimado Juan Carlos, los valores máximos de 3 y 8 para la simetría y curtosis respectivamente, ¿de qué fuente los tomaste? Me gustaría citarla para justificar que realizaré la T de Student. Tengo en mis grupos valores de curtosis hasta 4. ¡Gracias!

    Me gusta

  13. Gustavo dijo:

    Buenos días Dr.s que significa una t negativa?

    Me gusta

    • Estimado Gustavo,

      Muchas gracias por escribir a Stats SOS. En realidad significa que cuando el programa está calculando la T-student está poniendo el promedio más bajo primero y el más grande segundo. Entonces al restar sale negativo. Así que todo bien, no te preocupes.

      ¡Mucho éxito!

      Me gusta

  14. Laura dijo:

    Hola Juan Carlos, tengo una duda importante ¿puedo realizar correlación de pearson aunque mis datos no sigan una distribución normal? Justificando que mis variables son de intervalo o de razón…

    Me gusta

    • Hola Laura,

      Muchas gracias por escribir en Stats SOS. Claro que sí puedes, la condición básica para hacer una correlación de Pearson es que los puntajes sean continuos. La distribución de los datos (normal o no) no es un impedimento para este análisis.

      ¡Mucho éxito!

      Me gusta

  15. Carolina dijo:

    Buenas tardes Juan Carlos, gracias por compartir esta información de manera sencilla en este blog, me ha sido de mucha ayuda. Quería preguntarte algo muy importante:
    Mi muestra es pequeña (n=20) debido a que la evaluación y calificación de uno de mis instrumentos requiere de tiempo extenso, además de contar con una muestra con características muy particulares.
    Entre otras cosas, mi pregunta va a si es posible emplear el análisis de normalidad por asimetría y kurtosis en una muestra tan pequeña. Además, mi objetivo general busca determinar si existe relación entre los constructos que miden cada uno de mis instrumentos (dos instrumentos o pruebas psicológicas) en mi muestra específica, por lo que pensaba emplear correlación. Leyendo tu post de Pearson, no logré identificar si era necesario para emplear este estadístico que la muestra sea de un tamaño específico y quería preguntarte si es posible hacerlo. Quedo atenta a tu respuesta.
    Muchas gracias.

    Me gusta

    • Estimada Carolina,

      Muchas gracias por escribir en Stats SOS. Honestamente no haría unacorrelación de Pearson co 20 casos, pero por si acaso armaría un gráfico de dispersión para que más o menos se pueda ver si hubiera una relación entre tus dos variables. El tema es que es posible que por la cantidad de muestra que tienes podrían salir tus resultados no significativos cuando podrían serlo.

      ¡Mucho éxito!

      Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s