Análisis de varianza (ANOVA) ¿Alegría o terror?

Estimados todos, bienvenidos a otro capítulo de Stats SOS. Espero que estén muy bien. Como ya comenté en el post pasado, seguiremos avanzando por el maravilloso mundo de los análisis lineales en estadística.

En esta oportunidad, presentaré el análisis de varianza (ANOVA). Entonces, el objetivo de este post es introducir y describir de manera sencilla y divertida el ANOVA.

Antes que nada, un poco de  historia para amenizar el post. El ANOVA fue creado por Ronald Fisher (1890 – 1962), un estadístico, matemático, biólogo, genetista, en otras palabras el señor hacía de todo. Quizás si nacía luego hubiera trabajado en algún momento en física con Stephen Hawking o algo por el estilo.

Como vimos antes la t-student es un análisis lineal que nos permite comparar dos grupos y ver si existen diferencias significativas entre los grupos, o de manera más técnica si un par de grupos se relacionan con una variable cuantitativa. En el caso del ANOVA, la relación no es entre dos grupos y una variable cuantitativa o de intervalo sino, una relación entre varios grupos (3 a más grupos) y una variable de intervalo. Si no recuerdan qué es una variable de intervalo siempre pueden ir al post de tipos de variables que les dará un pequeño y maravilloso recordatorio. Muchas veces, el ANOVA se le llama un análisis “Omnibus” porque es un test general que te da a grandes rasgos si existen diferencias entre varios grupos en alguna cualidad determinada. Un dato muy importante, para hacer este análisis es necesario que la distribución de sus datos sea paramétrica o normal (¿Qué es eso? Aquí un recordatorio) y una forma de revisar esto lo pueden encontrar aquí.

Vamos mejor a un ejemplo, en este caso utilizaré datos propios de una investigación que hice tiempo atrás. Si quieren saber cuál, siempre pueden ir a este post que sale la lista de los temas que he publicado o he enviado a publicación. :).

Queremos saber  si existe relación entre el tipo de carrera universitaria que una persona quiere seguir y su manejo del tiempo libre. En ese caso, tenemos variable A, que es nominal y agrupa los tipos de carreras universitarias (Ingeniería, Psicología, Arquitectura, Derecho, etc).

Por otro lado, tenemos una variable B, que es de intervalo y que representa el promedio obtenido de una prueba de manejo del tiempo libre. Entonces, tenemos por un lado, una variable nominal (carreras) y al otro lado, una variable de intervalo (promedio de una prueba de manejo del tiempo libre). 

La primera hipótesis (hipótesis nula) plantea que no hay diferencias entre los diferentes grupos y el promedio del manejo del tiempo libre. ¿Qué quiere decir esto? Que el manejo del tiempo es igual para todas las carreras. La otra hipótesis nos diría que sí existen diferencias en el manejo del tiempo libre por carrera estudiada. En otras palabras, que sí hay relación entre el tipo de carrera que se estudia y el manejo del tiempo.  Si desean refrescar su memoria sobre la prueba de hipótesis este post puede ser de ayuda. 

Ahora que tenemos nuestras hipótesis en mente, vamos a la parte técnica, vamos al SPSS y seguimos la siguiente ruta:

Analizar/Comparar medias/ANOVA de un factor/

Luego en factor deben ingresar la variable nominal o las carreras y en lista de dependientes tienen que ingresar manejo del tiempo libre (o para cualquier investigación una variable cuantitativa). ¿Asustados aterrorizados? ¿Salieron corriendo? Espero que no, ojalá sigan acá conmigo porque vamos muy bien. De a pocos, vamos avanzando, el mundo avanza :).

Luego de ello, es probable que les salga una tabla como esta:

Untitled

Esta es la famosa tabla del ANOVA. Si se fijan hay cinco columnas con números porque el SPSS te muestra todo el proceso que se debe seguir para llegar a la F y la significación que es lo que se usa para determinar si existe una relación o no. No me voy a detener tanto en las especificaciones matemáticas de la tabla sino en el aspecto práctico. Si alguien tiene curiosidad de saber por ejemplo, qué es la suma de cuadrados, grados de libertad y media cuadrática siempre puede dejar un comentario en la sección abajo. Lo que si es importante saber, es que de los cálculos de la mano izquierda o columna izquierda aparecen los de la mano derecha. 

Para darles un ejemplo, si dividimos la media cuadrática inter grupos (4.906) entre la media cuadrática intra grupos (2.734) obtenemos la F (1.795). Un tema anecdótico, se le llama “F” porque viene de “Fisher” quien inventó este análisis. Esa es una particularidad de los estadístas, cuando inventan o encuentran un nuevo análisis le ponen rápidamente su apellido.

Volvamos a lo nuestro, la F significa cuan grande es la varianza generada por las carreras en comparación a que esta relación esté generada por el azar. En ese caso, mientras más grande es la F significa que los grupos han generado más varianza que está relacionada a nuestras variables. Entonces, la relación entre las carreras y el manejo del tiempo libre es más debido a las profesiones que al azar. ¿Vamos bien hasta aquí? ¡Entonces sigamos!

Por ello, mientras más grande sea la F más chica será la significación (sig) que nos permite saber si hay diferencias estadísticamente significativas o no. En este caso, la significación es menor a 0.05 entonces podemos rechazar la hipótesis que no hay relación o diferencias entre el tipo de carrera y el manejo del tiempo libre. Entonces, para este caso, aceptamos que sí hay relación entre el tipo de carrera que uno elige y su manejo del tiempo libre. En otras palabras, hay diferencias entre el manejo del tiempo libre por el tipo de carrera. (Si no recuerdan cómo funciona la significación este post les puede ser de ayuda). 

La pregunta del millón es ¿Cuáles carreras se diferencian en el manejo del tiempo libre? Para eso, tenemos que hacer otro análisis llamado análisis post hoc. Pero ese tema, será el tema central de nuestro siguiente post.

Espero que hayan llegado hasta acá, que estén ilesos después de su batalla con el ANOVA. Cerramos el post de hoy con una ligera observación que me he percatado cuando explico este análisis y que hace referencia al título. Por alguna razón, cuando la gente escucha la palabra “ANOVA” la cara le cambia y un temor tremendo se refleja en su rostro. Pero luego de que se explica y lo entienden, aparece una sensación de satisfacción y alivio bastante agradable :).

Bueno, esto es todo por hoy, recuerden que siempre pueden dejar sus maravillosos comentarios en la zona de comentarios y los espero pronto en otro capítulo más de estadística para todos. En el siguiente capítulo veremos la continuación del ANOVA que es el análisis post hoc, que, siguiendo nuestro ejemplo, nos permitirá saber qué carreras específicamente tienen un mayor o menor manejo del tiempo libre. 

¡Qué les vaya muy bien! ¡Buenas vibras! 

Bibliografía recomendada

Miller Jr, R. G. (1997). Beyond ANOVA: Basics of applied statistics. CRC Press.

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en ANOVA, Básico 1.0 y etiquetada , , , , , . Guarda el enlace permanente.

41 respuestas a Análisis de varianza (ANOVA) ¿Alegría o terror?

  1. Pingback: La vida después del ANOVA: el Post Hoc | Stats SOS

  2. Pingback: ¡Pero qué linda relación tienen! La correlación de Pearson | Stats SOS

  3. Pingback: Cálculos manuales del ANOVA | Stats SOS

  4. Pingback: Dos caminos, un destino: el ANOVA de dos vías | Stats SOS

  5. Pingback: Un día llegó la regresión múltiple | Stats SOS

  6. Alicia dijo:

    Hola me podrias ayudar con este tema ?
    Anova: criterios y limitaciones
    Gracias

    Me gusta

    • Estimada Alicia,

      Muchas gracias por escribir a Stats SOS. ¿Podrías especificar un poco más tu pregunta?
      Intentaré responderla con el riesgo de no completar toda la información.
      Criterios:
      1) Que tengas una variable categórica con más de dos grupos y una variable que sea de intervalo.
      2) Esta variable de intervalo tiene que tener puntajes con una distribución normal.
      Esos son los criterios claves para realizar el análisis de ANOVA que está arriba.
      Limitaciones:
      1) Si la variable de intervalo no tiene una distribución no normal los resultados podrían ser sesgados.
      2) En sí, el ANOVA solo te especifica diferencias generales entre todos los grupos pero no te dice entre qué grupos específicamente.
      3) Es un análisis que solo puede utilizar dos variables (las previamente mencionadas y no más).

      Espero que esto ayude.
      ¡Muchos éxitos!

      Me gusta

      • Sofía dijo:

        Hola Juan Carlos,

        te quería preguntar si es posible o más adecuado reportar ANOVA cuando la distribución de algunas variables no es normal, pero se hallan los mismos resultados que usando Friedman?

        Muchas gracias por esta iniciativa.

        Me gusta

        • Hola Sofía,

          Muchas gracias por escribir a Stats SOS. Mira, yo revisaría de varias maneras la distribución de mis puntajes antes de determinar que no son normales. Usaría primero, Kolmogorov-Smirnov o Shapiro Wilk (el primero se usacuando tienes más de 40 casos y el segundo si tienes menos de este número). Aparte, revisaría la asimetría y la kurtosis, si estos números son demasiado altos ahí recien determinaría que la distribución no es normal pero si este no es el caso continuaría con ANOVA. Si tu ANOVA es parecido a Friedmann es posible que la distribución de tus puntajes no tenga una forma demasiado lejos de una curva normal.

          ¡Mucho éxito!

          Me gusta

  7. Anónimo dijo:

    Buenos días: Tengo una pregunta al respecto y espero me la pueda aclarar por favor, es la siguiente:

    ¿Cuál es la diferencia entre la prueba F-Fisher y la prueba de ANOVA?

    Muchas gracias

    Saludos cordiales

    Me gusta

  8. anonimo dijo:

    Buenas noches,
    cuando hacemos el analisis post hoc con varianzas distintas (ejemplo:prueba de TAMHANE) ,¿ no se estaria violando uno de los supuestos de la ANOVA que es la homocedasticidad? Gracias.

    Me gusta

  9. Ron G dijo:

    Hola Juan Carlos, ante todo gracias por los post -tan bien trabajados- para que puedan ser tan comprensibles. Se que no tiene que ver directamente con este tema;sin embargo, a alguién que se dedica a la estadística ¿se le conoce como estadista o estadístico? Gracias y Saludos.

    Me gusta

  10. Anónimo dijo:

    Hola! Una consulta:
    Si quiero comparar los puntajes promedios de tres pruebas aplicadas a una misma muestra, para ver si existen diferencias significativas, lo adecuado sería realizar el ANOVA?

    Gracias

    Me gusta

  11. adrianseg dijo:

    Creo que una genial idea sería hablar, aunque sea en conceptos la diferencia entre una ANOVA, una ANCOVA, MANOVA y ANCOVA. Nunca lo encontré explicado de forma sencilla y con algún ejemplo. Si puedes resolver esa duda sino esperaré a algún nuevo post. Gracias!

    Me gusta

    • Estimado Adrian,

      Muchas gracias por escribir a Stats SOS. Por el momento no existe un post sobre ANCOVA y MANOVA. Sin embargo, podría comentarte velozmente las diferencias.

      El ANCOVA es un análisis de covarianza. En este aspecto es bien parecido al ANOVA porque relaciona una variable que tiene varios grupos con una cuantitativa. El ingrediente extra que tiene el ANCOVA es que relaciona una variable de múltiples grupos con una cuantitativa controlando (o manteniendo constante) otra variable que es cuantitativa. En este análisis, a esta variable se le suele llamar covariable. De ahí sale el nombre de ANCOVA o análisis de covarianza.

      El caso del MANOVA, es una extensión del ANOVA. Su nombre significa Análisis de varianza múltiple. El MANOVA toma en cuenta dos o más variables dependientes. De este modo tu puedes relacionar una variable que es grupal con dos o más variables cuantitativas.

      De este modo, estos análisis tienen dos grandes diferencias: a) el ANCOVA solo analisa una variable cuantitativa dependiente en cambio el MANOVA puede analizar dos o más. b) el ANCOVA relaciona dos variables, una de múltiples y otra cuantitativa mientras que se controla otra variable (llamada covariable) que es de caracter cuantitativo. En cambio, el MANOVA relaciona una o múltiples variables categóricas con múltiples variables cuantitativas sin controlar ninguna covariable. ¿El MANOVA puede controlar covariables? Sí puede pero ya no se llamaría MANOVA sino MANCOVA.

      ¡Mucho éxito!

      Le gusta a 1 persona

  12. Erfagapa dijo:

    Buenas tardes Juan Carlos.

    Tengo unos promedios mensuales de índices de temperatura y humedad (ITH) desde marzo 2012 a junio 2016. Quiero analizar en que mes y año los ITH son significativamente diferentes.
    Esto lo puedo realizar con el ANOVA?
    Debo tomar como grupos los años? o los meses?
    Con relación a la anterior pregunta, de cualquier forma los grupos no estarían completos (en el 2016 solo tengo 6 meses de datos y en 2012 solo tengo datos de marzo a diciembre).
    Lo anterior me impide hacer el ANOVA? debo utilizar otra prueba?

    Me gusta

    • Estimad@,

      Muchas gracias por escribir a Stats SOS. Por lo que entiendo tienes varias mediciones de un mismo grupo a lo largo del tiempo. Esto lo puedes hacer con un ANOVA, pero con uno de medidas repetidas y no con grupos independientes. Con eso, podrás saber el cambio que se dio a lo largo del tiempo. Dado que tienes incompletos los años yo tomaría los meses como unidad de referencia para hacer el análisis. De todos modos, sería lo más adecuado que pongas tu análisis no puede representar específicamente todo el año (porque tienes dos años incompletos) sino cómo es que la temperatura y humedad a cambiado a lo largo de los meses en un espacio de 4 años. Mientras más medidas (o puntos en el tiempo) tengas es mejor porque será más preciso tu análisis.

      ¡Mucho éxito!

      Me gusta

  13. Pingback: ¿Números muy fríos? ¡Presentemos gráficos! | Stats SOS

  14. Anónimo dijo:

    Hola Juan Carlos,

    Tengo una duda respecto al ANOVA para muestras relacionadas, ¿Cómo sé cuál de los estadísticos se recomienda utilizar al correr el Anova para medidas repetidas: traza de pillai, lambda de wilks, traza de hotelling o raíz mayor de roy?

    Muchas gracias de antemano

    Me gusta

    • Estimad@,

      Muchas gracias por escribir a Stats SOS. Son diferentes cálculos y estos se diferencian mucho más en análisis multivariados como el MANOVA. De todos modos, se ha encontrado que el Wilks Lamda es el más robusto y el que se suele utilizar más.

      ¡Mucho éxito!

      Me gusta

      • Anónimo dijo:

        Muchísimas gracias. Me queda una duda sobre la esfericidad. Si la significancia de la W de Mauchly es menor a 0.05 no puedo asumir esfericidad. Entiendo que en ese caso reviso las estimaciones de Greenhouse-Geisser y de Huynh-Feldt para ver si se acercan a 1 y ver si se acerca a la esfericidad. En el caso de que se acerquen (ambos son mayores a 0.9) ¿reporto la F de la Lambda de Wilks, o tengo que reportar otro estadístico univariado?

        De nuevo gracias por tu iniciativa y apoyo

        Me gusta

        • Muchas gracias por escribir a Stats SOS. Según ciertos criterios que por ejemplo se pueden encontrar en el libro de Andy Field de estadística, si de la W de Mauchly es menor a 0.05 tendrías que usar GreenHouse-Geisser siempre y cuando este valor sea menor a 0.75. Si el valor es muy extremo también podrías reportar wilks lambda para darle más solidez a tus datos.

          ¡Mucho éxito!

          Me gusta

          • Anónimo dijo:

            Muchísimas gracias.

            Me gusta

          • Anónimo dijo:

            Hola Juan Carlos, muy buenas las explicaciones

            Unas dudas respecto a la esfericidad: si a traves de la prueba Mauchly rechazo esfericidad, pero GreenHouse-Geisser es mayor a 0.75, ¿reporto que hay esfericidad?, en caso no haya esfericidad ¿reporto la F multivariada o la univariada (de la tabla de efectos intra-sujetos)?

            Gracias por la iniciativa

            Me gusta

        • Estimado Anónimo,

          Muchas gracias por escribir a Stats SOS. Discúlpame la demora en responder, pero algo pasó con la página del blog que no me ha permitido responder directamente el mensaje. Voy a pegar la pregunta acá para dar el contexto:

          —————————————
          Hola Juan Carlos, muy buenas las explicaciones

          Unas dudas respecto a la esfericidad: si a traves de la prueba Mauchly rechazo esfericidad, pero GreenHouse-Geisser es mayor a 0.75, ¿reporto que hay esfericidad?, en caso no haya esfericidad ¿reporto la F multivariada o la univariada (de la tabla de efectos intra-sujetos)?

          Gracias por la iniciativa

          ————————————

          No, en ese caso tienes que ver la prueba de Huyn-Feldt e interpretar desde ahí. Ese es otro cálculo que no asume esfericidad. Reportaría la univariada siempre y cuando quieres saber si hay diferencias a lo largo de las repeticiones por el hecho de repetir y no por otra variable aparte.

          ¡Mucho éxito!

          Me gusta

  15. Hugo dijo:

    Estimado Juan Carlos,

    Quería consultar como obtener el coeficiente de eta cuadrado utilizando el análisis de ANOVA. Tengo entendido que es la división entre la suma de cuadrados del efecto con la suma de cuadrados total, donde se cuenta el error, sin embargo en la tabla de ANOVA solo se cuenta con la suma de cuadrados intragrupos y entre grupos.

    Muchas gracias de antemano!

    Me gusta

    • Estimado Hugo,

      Muchas gracias por escribir a Stats SOS. En una ANOVA, la varianza intra grupos también se cuenta como la varianza del error (porque es la variabilidad entre las personas). En realidad eso no es un error (en multinivel esta varianza es muy útil). La varianza entre grupos es la varianza también de tus predictores (si haces una regresión múltiple con dummies te debe salir ese nombre). Entonces la varianza entre grupos es la que explica tu variable categórica y la varianza intra grupo es lo que no se puede explicar por tus grupos (por eso también le llaman erro). La suma de eso es la varianza total.

      ¡Mucho éxito!

      Me gusta

  16. Anónimo dijo:

    Hola podrias ayudarme con esta duda,
    Respecto al tipo de variable, qué limitaciones tiene un análisis de varianza ANOVA?

    Me gusta

    • Estimad@,

      Muchas gracias por escribir en Stats SOS. no me queda muy clara la pregunta pero ensayaré una respuesta.

      La gran limitación que tiene el ANOVA es que es un análisis bivariado. Por ello, solo puedes analizar un grupo y las diferencias que tienen con respecto a una variable que son puntajes. Entonces, puede ser que te salgan diferencias estadísticamente significativas pero podría deberse por otras variables que no estás tomando en cuenta en lugar de porque los grupos son diferentes.
      Otra limitación que tiene es que la distribución de los puntajes de todos los grupos tienen que tener una distribución normal, situación que no siempre se cumple.
      Sobre el tipo de variable, siempre se utilizan puntajes que son cuantitativos, pero esto no lo vería como una limitación sino más bien como una característica del análisis en sí.

      ¡Mucho éxito!

      Me gusta

  17. jesus dijo:

    Hola, podrías ayudarme con una pregunta; ¿ por qué al ANOVA se le considera como una prueba robusta?

    Me gusta

    • Estimado Jesus,

      Muchas gracias por escribir a Stats SOS.

      Se le considera una prueba robusta porque a pesar de que pueden no cumplirse algunos supuestos clásicos como por ejemplo la distribución normal de puntales debido a la presencia de puntajes que son atípicos (muy altos o muy bajos), el análisis logra hacer un cálculo que no es sesgado. Entonces, la robustez implica a que mantiene la presión a pesar que algunos supuestos del ANOVA no se cumplan al 100%.

      ¡Mucho éxito!

      Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s