¿Somos normales? ¡Quizás! La distribución normal

¡Saludos a todos! Nuevamente nos encontramos en un maravilloso capítulo de Stats SOS. Espero que hasta ahora la travesía esté siendo agradable para todos ustedes valientes e interesados lectores.

Primero que todo, quiero nuevamente agradecerles por su soporte y valentía de querer emprender el maravilloso camino de aprender estadística. Ustedes realmente son los que motivan el crecimiento de este blog. Los que aún no se unen, ¡anímense! Prometo que el camino no será muy rocoso.

¡Muy bien! Vamos a lo nuestro, el post busca explicar y describir de manera simple y clara qué es la distribución normal o paramétrica. Para ello, pondremos gráficos que muestran esto ¡no se asusten, borren los malos recuerdos y continúen conmigo!

La distribución normal o distribución de Gaus, es un tipo de curva o distribución donde todos los puntajes de su muestra están organizados de forma simétrica. En otras palabras, los puntajes están concentrados en el centro o se repiten más en el medio de toda la distribución y existe casi la misma cantidad de puntajes bajos como altos a lo largo de toda la muestra. ¿Complicado? ¿Confuso? ¡No hay problema! Vamos a nuestros maravillosos ejemplos.

Ustedes están llevando la clase de estadística dos y han rendido la primera práctica calificada, han pasado dos semanas y el profesor recién les ha devuelto los exámenes. En la devolución, se han percatado que un grupo de personas está con cara de preocupación, otro con cara de satisfacción y otro con cara de alivio. Ustedes han obtenido un 15/20 en su examen y quieren saber si es que su nota está dentro del promedio de la clase o es mayor o menor. Para ello, buscan a su amigo/a loco/a por las estadísticas y le preguntan cómo hacer para responder a esta respuesta. Esa persona con mucha sutileza les dice “consígueme las notas y haré la magia”.

Acto seguido ustedes consiguen las notas y en la recolección se dan cuenta que habían  45 alumnos en la clase y sus puntajes fueron los siguientes: 07,08,08,09, 09,10, 10, 10, 11, 11, 11,11,12, 12, 12, 12, 12, 13, 13, 13, 13, 13, 13, 14,14,14, 14, 14, 14, 15, 15, 15, 15, 16, 16, 16, 16, 16, 17, 17, 18, 18, 19, 20, 20.

Luego de ingresar las notas en la computadora le dieron la base de datos a su amigo/a y él/ella hizo un par de análisis.  (Para esta parte usaré el SPSS pero esto se puede aplicar a cualquier paquete estadístico que deseen). Los resultados mostraron primero un gráfico tal como esté:

Untitled

Como ven, esta distribución es simétrica. En el medio hay mayor cantidad de notas y a los lados hay tanto para la izquierda (que son notas más bajas) como para la derecha (notas más altas) la misma cantidad de notas. Esto quiere decir que la distribución de puntajes del salón de 45 alumnos tiene una distribución normal o paramétrica.  ¿Por qué esto es importante? Porque la gran mayoría de análisis estadísticos que hacemos en psicología utilizan o asumen que la distribución es así. Un detalle importante de esta distribución es que, la media, la mediana y la moda son iguales y están justo al medio o en la cima de la curva o montañita azul. En otras palabras, el promedio de puntajes, el valor medio y el número que más se repite de puntajes del salón es el mismo.  Si no se acuerdan qué son estos términos no hay problema (este post de estadística descriptiva los puede ayudar).

¡Muy bien! Espero que sigan conmigo y que la curva no los haya asustado. ¿Cómo podemos saber si una curva es normal? La forma más fácil es pidiéndole al SPSS que nos bote un gráfico (como este) de frecuencias y ver cómo está la curva. Si tiene está forma es normal, sino, entonces la distribución es no normal o no paramétrica. 

La distribución puede ir hacia la izquierda o hacia la derecha. En otras palabras, puede haber más frecuencia de notas bajas  (por consiguiente la distribución va más hacia la izquierda y las barras son más altas al lado izquierdo, primer caso) o puede haber más frecuencia de notas altas (por ende la distribución va hacia la derecha y hay más barras altas al derecho, segundo caso). Aquí un ejemplo de cada una:

exhibit_3_2

Si se percatan, la gráfica del lado izquierdo es el primer caso, mientras que el segundo caso es la gráfica de la derecha.

Existen otras maneras numéricas para ver esto, las cuales veremos en el siguiente post. En ese caso, en nuestro siguiente capítulo trataremos sobre la distribución no normal o la manera de identificar cuando no se cumplen los criterios para una distribución normal.

Ojo pestaña y ceja, además de esta distribución existen una gran gama de distribuciones además de la normal. Para los interesados haré una breve mención de esto en la parte de comentarios.

Si tienen curiosidad de saber si su nota (15) en estadística dos estaba con el promedio de la clase o por encima de este, pueden mirar el siguiente post donde dejaré la respuesta. Si no quieren esperar tanto pueden dejar un comentario con la que ustedes creen que es la respuesta, eso sería muy divertido ¡anímense!

¡Muy bien! Creo que ha sido bastante por hoy, espero que hayan llegado hasta acá sanos y salvos. Como siempre les agradezco en el alma, estar siguiendo el blog. Recuerden que siempre pueden dejar sus comentarios y preguntas y encantado de poder resolver o comentar sobre sus dudas u opiniones. !Buenas vibras a todos!

Bibliografía recomendada:

Howell, D. (2013). Fundamental statistics for the behavioural sciences. Thomson & Wadsworth. USA.

 

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Conceptos y etiquetada , , . Guarda el enlace permanente.

25 respuestas a ¿Somos normales? ¡Quizás! La distribución normal

  1. mbenitesd dijo:

    Debo decirlo: Realmente bueno. Súper sencillo, práctico, entendible. Esto vale la pena leerlo más de una vez.

    Me gusta

  2. Tal como les mencioné, existen una serie de distribuciones pero las más conocidas son la distribución chi cuadrado, la distribución F de Fisher, la distribución Binomial y la distribución logarítmica. En realidad todas estas distribuciones al igual que la normal son gráficas de curvas que muestran cómo están distribuidos los datos.

    Me gusta

  3. Pingback: Análisis de varianza (ANOVA) ¿Alegría o terror? | Estadística para todos, hecho por un psicólogo

  4. Pingback: Gonzalo apoya la aditividad: Los 4 supuestos de la regresion lineal | Stats SOS

  5. Anónimo dijo:

    Holaaa Juan Carlos te quería agradecer por los post de tu blog

    Me gusta

  6. Wendy dijo:

    Hola Juan Carlos, quería preguntarte sobre las diferencias entre las distribuciones de Shapiro wilk y la de Kolmogorov

    Me gusta

    • Hola Wendy,

      Que gusto saber de ti y muchas gracias por escribir en Stats SOS. El Shapiro Wilk y el Kolmogorov Smirnov son pruebas que pueden ser usadas para medir la normalidad de puntajes. ¿Qué significa esto? Que miden si tus puntajes están distribuidos de manera paramétrica (normal) o no.
      Dicho esto, el Shapiro Wilk se utiliza cuando tienes muestras pequeñas (menores a 50 casos). Mientras tanto, el Kolmogorov Smirnov se utiliza cuando tienes muestras más grandes (mayores a 50 casos).
      ¿Cómo funcionan estos estadísticos?
      Lo que hacen ambos estadísticos es comparar una distribución de datos esperada contra la distribución de datos que tienes en tu muestra. Esta distribución de datos esperada tiene puntajes distribuidos de manera normal. ¿Hasta ahí todo bien? Ok, sigamos.
      Cuando haces este análisis y comparas hipótesis (ver https://statssos.net/2014/11/21/es-significativo-que-es-eso-la-estadistica-inferencial/), dices lo siguiente:
      Primera hipótesis (o H0): Puntajes esperados que están distribuidos de manera normal = La distribución de los puntajes de la muestra de mi investigación.
      Segunda hipótesis (o H1): Puntajes esperados que están distribuidos de manera normal son diferentes a la distribución de los puntajes de la muestra de mi investigación.

      Entonces, como tu quieres que tus puntajes estén distribuidos de manera normal (porque así haces análisis más fáciles) deseas elegir la primera opción. ¿Cómo lo haces? ¡Sencillo!
      Estos dos análisis te muestran un valor p (o significación). Tal como sale en el post de estadística inferencial (ver https://statssos.net/2014/11/21/es-significativo-que-es-eso-la-estadistica-inferencial/) si tu valor p es MAYOR a .05 no puedes rechazar la primera hipótesis, por ello tienes que aceptar que ambas distribuciones son iguales. Si una distribución normal esperada es igual a la distribución de tus puntajes, entonces quiere decir que tus puntajes están distribuidos normalmente.
      Por otro lado, si la p (significación) es MENOR a .05 rechazas la primera hipótesis y por ende aceptas la segunda hipótesis. Esta te dice que la distribución de tus puntajes es diferente a una distribución de puntajes normal esperada. En palabras simples, la distribución de tus puntajes no es paramétrica.
      Espero que esto haya sido de ayuda
      ¡Muchos éxitos!

      Me gusta

  7. Nelida Medina Hoyos dijo:

    excelente, me ha gustado a forma clara como explica al detalle para saber interpretar los resultados, voy a seguir su instrucciones para seguir aprendiendo la estadística. Felicitaciones y gracias

    Me gusta

  8. Pingback: ¡No puedo comparar cosas medidas de diferente manera! Los puntajes Z | Stats SOS

  9. Johanna dijo:

    Hola Juan Carlos, te escribo para pedirte ayuda respecto a la definición de pruebas paramétricas y pruebas no paramétricas.

    Por cierto, tu blog es maravilloso, haces todo más entendible.
    Gracias

    Me gusta

    • Estimada Johanna,

      Muchas gracias por escribir en Stats SOS. Las pruebas paramétricas son todos los análisis que asumen que los puntajes de las variables están distribuídas de forma normal (como una campana simétrica). En cambio, las pruebas no paramétricas no tienen este supuesto y tampoco asumen que los puntajes de los datos se distribuyen de una manera específica.

      ¡Mucho éxito!

      Me gusta

  10. Alexander dijo:

    Hola Juan Carlos, gracias por la información tan clara que nos brindas. Te quisiera hacer otra consulta pero ahora sobre la distribución normal que tan bien describes en este post. Sucede que he aplicado una prueba de likert sobre Clima escolar que tiene 50 ítems, cuyas alternativas miden la frecuencia de ocurrencia de los mismos y son Nunca (0), Casi nunca (1), A veces (2), Mucha veces (3) y Siempre (4). Sin embargo, hay unos 20 ítems que son negativos (relacionados a violencia e indisciplina) y que tendrían que tener valores inversos, es decir Nunca (4), Casi nunca (3), A veces (2), Mucha veces (1) y Siempre (0). Mi pregunta es si a la hora de hacer el análisis de la distribución normal, ¿tengo que tener en cuenta esos valores inversos? ¿o mantengo los valores en un sólo sentido? He probado hacerlo de las dos formas y si mantengo los valores iguales para todos los ítems me sale con distribución normal y en el otro caso no. Es una disyuntiva que tengo ahora. Espero que puedas orientarme. Gracias nuevamente.

    Me gusta

    • Hola Alexander,

      Muchas gracias por escribir a Stats SOS. Al invertir los datos, máximo lo que puede ocurrir es que sin invertir tienes una alta frecuencia de valores altos, cuando inviertas esta frecuencia será en valores bajos (en lugar de que se repita mucho el 4, se repetirá mucho el 0). Entonces, si se repiten mucho los valores altos cuando los inviertas es posible que deja de ser simétrica la distribución de valores (siempre y cuando haya una alta frecuencia de valores muy bajo o muy altos). Si está distribuido de manera normal (perfecta) la inversión no tendría que generar un efecto muy importante en la distribución de los datos (se tendría que mantener normal).
      Pero de todas maneras, yo tendría todos los valores en un solo sentido (valores más altos representan con mayor intensidad el concepto evaluado). Esto por un tema de orden. Sobre la base de esa decisión correría mi prueba de normalidad y vería qué valores me salen. Aparte, complementaría esta prueba con la revisión de la asimetría y la curtosis para ver si efectivamente la distribución rompe el supuesto de normalidad de manera contundente.

      ¡Mucho éxito!

      Me gusta

  11. Hilda dijo:

    Hola Juan Carlos, primero agradecerte por tus informaciones, realmente es una gran ayuda.
    Quisiera preguntarte si es posible que un (P) significación sea mayor que 1, ya que alguien me dijo que si p0.5 fuerte o que proviene de distribución norma y si p=1 es perfecto , pero me preocupa porque el p es mucho mayor que 1. Mi prueba de normalidad Shapiro Wilk me resultó 0.081 para el pretest y 0.121 para el postest.
    Por favor requiero tu ayuda urgente.

    Me gusta

    • Hola Hilda,

      Muchas gracias por escribir a Stas SOS. Un valor p no puede ser mayor a 1. Yo volvería a correr el análisis y revisar tu base de datos, puede ser que el cálculo de Shapiro Wilk te salga mayor a 1 que sí es posible pero la significación no puede salirte mayor a 1.

      ¡Mucho éxito!

      Me gusta

  12. Ruth dijo:

    Hola muy bueno dias. Quisiera que me ayude con estas dos preguntas: 1.porque al ANOVA se le considera como un análisis ómnibus?.
    2. Porque al ANVA se le considera como una prueba robusta? Estaré más que agradecida con tu ayuda.

    Me gusta

    • Estimada Ruth,

      Muchas gracias por escribir a Stats SOS. Voy a enumerar tus preguntas para que sea más fácil responder.
      1) El ANOVA se llama prueba omnibus porque es una prueba global y no específica de dos grupos. El ANOVA te dice que existen diferencias entre múltiples grupos pero no te dice en cuáles específicamente.
      2) Se le considera una prueba robusta porque a pesar de que pueden no cumplirse algunos supuestos clásicos como por ejemplo la distribución normal de puntales debido a la presencia de puntajes que son atípicos (muy altos o muy bajos), el análisis logra hacer un cálculo que no es sesgado. Entonces, la robustez implica a que mantiene la presión a pesar que algunos supuestos del ANOVA no se cumplan al 100%.

      ¡Mucho éxito!

      Me gusta

  13. Que tal, muchas gracias por todos los posts realmente son de excelente ayuda. Quisiera saber cuáles son los pasos para hacer la prueba de normalidad (el gráfico) y la prueba de Kolmogorov Smirnov en SPSS

    Muchas gracias por la ayuda

    Me gusta

    • Estimada Brenda,

      Muchas gracias por escribir a Stats SOS. Para conseguir la prueba de Kolmogorov Smirnov tendrías que ir a la siguiente ruta: Analizar/Estadísticos descriptivos/Explorar/

      Luego ahí es necesario que ingreses la variable que deseas ver la distribución y luego tendrías que ingresar a opciones y especificarle al programa que te de un histograma conjunto con las pruebas de normalidad. Con eso tendrás toda la información necesaria. Si la prueba de kolmogorov es estadísticamente significativa quiere decir que la distribución de tus puntajes no es paramétrica (o normal).

      ¡Mucho éxito!

      Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s