Dos caminos, un destino: el ANOVA de dos vías

Estimados todos, bienvenidos a un nuevo capítulo de Stats SOS, espero que estén muy bien y que todo vaya maravilloso para ustedes.

Ya hemos avanzando bastante y cada vez la complejidad de los temas aumentan pero estoy seguro que ustedes están yendo muy bien. Tal como mencioné el post pasado, ahora vamos a ver una extensión del ANOVA, que es el ANOVA de dos vías o Two way ANOVA. Los que no recuerdan qué es el ANOVA simple no hay ningún problema, pueden ir a este post que los ayudará a refrescar su memoria. 

Entonces, el objetivo de la aventura de hoy es describir y explicar de manera sencilla, el ANOVA de dos vías. Pero antes de ello, brevemente me iré atrás en el tiempo y mencionaré algo sobre el ANOVA simple, ¿está bien?

Tal como ustedes my bien saben, el ANOVA es una prueba lineal, que lo que busca es relacionar una variable categórica que tiene más de tres grupos, con una variable de intervalo. Si no recuerdan a qué me refiero, este enlace les puede hacer el truco.

En el caso del ANOVA de dos vías, la idea ya no es relacionar solo una variable categórica con una variable de intervalo, sino dos variables categóricas con una de intervalo. Por eso, es que se llama de dos vías, porque ya no se desea relacionar una variable (categórica) con otra variable (intervalo), sino dos o más variables categóricas, con esta de intervalo. 

¿Suena a un idioma oscuro y malévolo? ¡No hay problema! Vamos a un ejemplo que seguro nos aclarará el panorama.

Imagínense que tenemos interés en conocer los niveles de estrés de un grupo de jóvenes y cómo estos niveles se relacionan con el sexo y la percepción de salud. Entonces, en este caso tenemos tres variables: a) Estrés que es medida con un cuestionario y tiene puntajes y por ende será nuestra variable de intervalo (variable a). b)  Sexo, que es una variable categórica que puede ser hombre o mujer (variable b). c) Percepción de salud, que es otra variable categórica que tiene cinco opciones. Mala, Regular, Buena, Muy buena y Excelente (variable c).

¡Muy bien! ¿Hasta ahí están conmigo? Espero que sí, así que sigamos. Luego que recogemos toda la información la ingresamos en el SPSS y estamos frente a la computadora, ¿y ahora, qué hago? ¡Muy sencillo! Primero se toman un delicioso café o una infusión para los que no son amantes del cafe y siguen esta ruta.

Analizar/Modelo general lineal/Univariante/

En este caso, la ruta se llama de esta manera porque el ANOVA de dos vías es un análisis lineal que solo usa una variable como resultado, que en nuestro ejemplo es estrés. 

¡Excelente! Luego de ello, les debe haber aparecido un menú. En este caso, tenemos que poner nuestra variable dependiente que sería la variable que queremos analizar. En ese caso, ponemos ahí la variable a, que es el nivel de estrés de los jóvenes. 

Luego, en el recuadro de factores fijos, tenemos que poner nuestras otras dos variables: Sexo (variable b) y Percepción de Salud (variable c). Estas variables se ponen en este recuadro porque son las que deseamos analizar directamente. Los que tienen curiosidad de conocer qué son los otros recuadros, siempre pueden dejar un maravilloso comentario y encantado de ayudarlos.

¿Hasta ahí? ¿Están acá? ¡Muy bien, sigamos! Luego de ello, es importante ir a gráficos y aquí tienen varias opciones, este menú les dice cómo es que quieren su gráfico. Para este ejemplo, lo que haremos es lo siguiente: en eje horizontal  pondremos la percepción de salud y en líneas separadas el sexo. Entonces, al final, nos aparecerá un gráfico con dos líneas, una de hombres y otra de mujeres. Además, en el eje horizontal (el eje echado) saldrán las cinco percepciones de salud (ver arriba). Finalmente, el eje vertical (el parado) les saldrán las medias promedio de estrés . 

Importante: Antes de salir del menú debemos apretar (o pinchar) en añadir para que lo que hemos escogido aparezca en el recuadro de abajo. Esto es importantísimo, porque sino el gráfico no saldrá. Luego debemos poner continuar.

Después de ello, tenemos que ir al botón de Post Hoc y ahí es importante poner los factores en el recuadro del costado que dice “pruebas post hoc para”. Además, es necesario poner un tick en el análisis que queremos. Para este caso, voy a poner Scheffe, porque es lo convencional, sin embargo existen otros análisis más precisos como Dunett y Tukey-B. Para saber más de esto pueden ir al capítulo de post hoc y a la parte de comentarios que les puede dar algunas ideas.  Un dato interesante, es que este análisis de post hoc, es igual al que ya hemos visto antes, entonces ya estamos en la etapa donde los análisis comienzan juntarse entre ellos. Luego de hacer click en todas estas opciones, ponemos continuar.

Finalmente, debemos ir a opciones. Ahí, es necesario pasar las variables del recuadro de “Factores e interacciones” al recuadro contiguo “Mostrar las medias para”. En este caso, tenemos que poner todas las variables menos la que dice “Overall” porque lo que nos interesa es analizar variable por variable. Entonces, queremos analizar, sexo (variable b) y percepción de salud (variable c) y la interacción entre ellas, que en este caso está representado como sexo*percepción general. Los que no recuerdan qué es una interacción pueden ir a este post, que los puede ayudar. ¡Así que no se preocupen! :).

Luego, sería importante también incluir estadísticos descriptivos y la prueba de homogeneidad de varianzas y poner continuar. Los que no recuerdan qué es un estadístico descriptivo, pueden ir a este post. Por otro lado, los que no recuerdan qué es una prueba de homogeneidad de varianzas, este post de la T-student les puede dar la respuesta.

¡Muy bien! Ahora sí, ¡veamos los resultados! Lamento que este post esté siendo un poco largo, pero a medida que se vuelva más complejo el análisis, lamentablemente serán más extensos los posts. En algunos casos intentaré separarlos en dos para aliviar el tema.

¡Importante! El SPSS les va a botar un montón de tablas, y muchas de ellas van a ser redundantes, para este post sólo voy a escoger las tablas que son de mayor utilidad.

Tabla 1

levene2wayanova

Esta primera tabla, mide exactamente lo mismo que ya hemos visto antes, ¿En dónde lo vimos? En la t-student para muestras independientes. Lo que mide esta tabla es si las varianzas son iguales (homogéneas) o diferentes (heterogéneas). Como la significación es mayor a 0.05 no podemos rechazar la idea que las varianzas son iguales. Si no recuerdan por qué se da esto, pueden ir al post de estadística inferencial que los puede ayudar. Un tema importante, para que este análisis sea lo más preciso posible y cumpla todas las reglas de juego, es necesario que las varianzas sean iguales. Dado que en nuestro ejemplo ocurre esto, podemos ser felices y seguir mirando las siguientes tablas.

Tabla 2

intersujetos2wayanova

Esta tabla es la central en el análisis del anova de dos vías. Fírmenlo, recuérdenlo y apúntenlo. Aquí, lo que estamos viendo es la significación y si existe relación entre nuestras variables y el estrés. Aquí podemos ver tres cosas importantes: a) Percepción de salud, la significación es menor a 0.05 (es 0.011), los cual significa que existe relación o diferencias significativas entre las diferentes percepciones de salud y los niveles de estrés. b) Sexo, la significación es menor a 0.05 nuevamente, lo cual significa que sí existe relación entre el sexo y los niveles de estrés en este grupo de jóvenes. En otras palabras, hay diferentes por sexo en los niveles de estrés. Finalmente, c) SG*Sexo (que sería la interacción de percepción de salud con sexo), no muestra relación con los niveles de estrés. Por ello, la variable sexo y percepción de salud, tienen una relación con estrés que es independientemente de cada una. ¿Qué significa eso?  Que no hay una interacción entre Sexo y percepción de salud, y el conjunto relacionado de ambas no generan un cambio en los niveles de estrés. Los que no recuerdan qué es una interacción siempre pueden ir a este pot a refrescar la memoria. 

Tabla 3

diferencias por sexo

Esta tabla nos muestra la diferencia en los niveles de estrés entre hombres y mujeres. Como podemos ver, los hombres reportan menos niveles de estrés que las mujeres. ¿Cómo podemos saber esto? De dos maneras: a) podemos fijarnos en la tabla 2 donde mostraba que hay una relación significativa entre sexo y niveles de estrés. b) podemos ver los intervalos de confianza donde claramente se muestra que los intervalos del promedio de hombres no chocan o traslapan con el de mujeres. ¿Cómo así? El límite superior del intervalo de hombres es 31.301, mientras que el límite inferior de mujeres es 36.343. Por ello, nunca se chocan y eso es una prueba más que hay una diferencia significativa entre sexo. Los que quieren refrescar la memoria sobre intervalos de confianza, pueden ir a este post que les será de utilidad. 

Tabla 4

posthoc2wayanova

Finalmente, pasemos a la última tabla numérica. ¿Siguen acá conmigo? ¿Está todo bien? ¡Excelente sigamos!

Esta tabla intuyo que también debe ser familiar para ustedes, si no lo es, ¡no hay ningún problema! Pueden ir a este post y refrescar la memoria. Esta es una tabla de Post Hoc. Aquí, lo que le pedimos al SPSS es que nos muestre las diferencias entre cada una de las categorías de percepción de salud (Mala, Regular, Muy buena y Excelente) con las otras. No iremos muy al detalle con esta tabla porque es algo que ya hemos visto antes. Pero lo que sí sería importante mencionar es que si seguimos el clásico criterio de la significación menor a 0.05 podemos ver lo siguiente: Existen diferencias en los niveles de estrés entre las personas que dicen tener la salud mala versus los que dicen tener la salud, muy buena y excelente. Las personas con una percepción de mala salud, tienen mayores niveles de estrés que las personas con percepción de muy buena y excelente salud.

Aparte, en todos los otros casos, no existe una relación entre la percepción de salud y los niveles de estrés. Recuerden el post de estadística inferencial, nos morimos por rechazar la primera hipótesis que dice que los niveles de estrés son iguales. Pero para lograr hacer esto, nuestra significación debe ser menor a 0.05.

Gráfico 1

graficade2wayanova

Finalmente, el gráfico, ¡o el famoso gráfico! No se asusten, no se tambalean ni se mareen en la silla. Los gráficos deberían hacernos sonreír en lugar de preocuparnos porque nos dan una representación gráfica de nuestros números. Nota: las medias marginales del lado izquierdo nos muestran los promedios de estrés. Mientras más altos los puntos más estrés. De este gráfico podemos encontrar varias cosas: a) Las mujeres reportan más estrés que los hombres porque la línea verde que significan mujeres está más arriba que la de hombres. b) Tener una mala percepción de salud está relacionada con más altos niveles de estrés, especialmente en mujeres. Como dato curioso, en el caso de los hombres,  se puede ver en la gráfica que los hombres que reportan una percepción de salud buena tienen ligeramente mayores niveles de estrés que los que dicen tener una percepción regular.

Finalmente, y el dato más importante. No hay interacción entre sexo y percepción de salud y esta no se relaciona con los niveles de estrés. ¿Cómo se ve esto en la gráfica? Muy sencillo, si las líneas llegan a cruzarse entre sí, esto quiere decir que sí hay interacción. En otras palabras, la representación de una interacción en la gráfica es cuando las líneas chocan. 

¡Muy bien! ¡Eso sería todo! Lamento que este post haya sido tan largo, espero que no estén agotados, exhaustos ni hayan salido corriendo. Ya saben, que cualquier pregunta, comentario o duda siempre pueden escribir y dejar un maravilloso comentario en la parte de comentarios. Para la siguiente aventura de Stats SOS, veremos la regresión lineal simple. Y ahí se percatarán nuevamente cómo todos estos análisis son parecidos y una misma familia.

Espero que todos tengan un excelente día, ¡Buenas vibras!

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Básico 1.0 y etiquetada , , . Guarda el enlace permanente.

14 respuestas a Dos caminos, un destino: el ANOVA de dos vías

  1. Anónimo dijo:

    Hola, Juan Carlos! Una vez más su post es muy esclarecedor. Me quedé muy contenta porque pienso que puedo utilizar el ANOVA de dos vías para mi análisis. Le comento: tengo dos variables nominales: género (femenino y masculino) y orientación sexual (homosexual, heterosexual y otra), que tengo que comparar con otras variables de intervalo. Sin embargo, cuando he hecho una simulación con mis datos, me sale un mensaje de advertencia de que las
    pruebas post hoc no se realizan para género de sujeto porque hay menos de tres grupos. ¿Eso puede perjudicar mi análisis? Muchas gracias por su ayuda. ¡Qué tenga un lindo comienzo de semana! Saludos.

    Me gusta

    • Estimada,

      Muchas gracias por escribir a Stats SOS.
      Entiendo el tema del mensaje de advertencia. Lo que ocurre es que las pruebas de post hoc están diseñadas para reducir el error estadístico que se puede producir cuando se realizan múltiples comparaciones (tres o más). Sin embargo, cuando se tienen dos grupos entonces esto no se aplica. Eso es lo que debe estar pasando.
      Respondiendo directamente a tu pregunta no creo que esto afecte mucho el análisis. Lo que si recomendaría como bien has comentado es hacer un Anova de dos vías, para ver si es que sexo (mujer, hombre) tiene alguna interacción con la orientación sexual. Dependiendo de cuál es la variables de intervalo que utilizas es bastante plausible encontrar una interacción. Eso sería muy interesante.

      ¡Muchos éxitos!

      Me gusta

  2. María dijo:

    En relación con el diseño de un experimento, tengo una duda conceptual. Tengo dos factores. Factor 1 riego: bajo, alto y (¿sin riego?). Factor 2 nutrientes: bajo, alto y (¿sin nutrientes?). ¿Mi duda es si deben realizarse las combinaciones de tratamientos donde no empleo algún factor porque considero que no siempre pueden estar los dos actuando a la vez?. Por ejemplo: Factor 1: sin riego + Factor 2: bajo/alto y viceversa Factor 1: bajo/alto + Factor 2: sin nutrientes. Y en última instancia: Factor 1: sin riego + Factor 2: sin nutrientes sería el control. En realidad, se trata de contemplar la posibilidad de que actúe los dos niveles de un factor sin la aplicación del otro factor. ¿cómo se definirían los tratamientos (y niveles) entonces? 3*3, y uno de ellos sería el control? Gracias

    Me gusta

    • Estimada María,

      Muchas gracias por escribir a Stats SOS.

      Si te entendí correctamente la pregunta alude a si quieres/puedes utilizar el grupo sin riego ni nutrientes. La respuesta es sí. Por supuesto que puedes hacerlo. Ese podría ser tu grupo control.

      Por otro lado, dado que tienes dos variables categóricas (Factor 1 y Factor 2) y quieres saber si estas se relacionan para generar por ejemplo la cantidad de milimetros que crece una planta entonces podrías hacer un ANOVA de dos vías.

      En tu modelo como variables independientes pones el factor 1, el factor 2 y el factor 1*factor 2. Ahí podrías ver la relación del factor 1 con el crecimiento, el factor 2 con el crecimiento y la combinación de ambos (factor 1*factor2) con el crecimiento.
      Como bien dices, de todos modos utilizaría sin riego y sin nutrientes como mi grupo control.

      ¡Mucho éxito en tu proyecto!

      Me gusta

  3. María dijo:

    Perdona que me haya explicado no del todo bien. Sí, utilizaría sin riego y sin nutrientes, a la vez, como grupo control. Pero además, me gustaría incluir estos tratamientos: sin riego /con nutrientes bajo; sin riego/ con nutrientes alto; riego bajo / sin nutrientes; y riego alto / sin nutrientes. Cuando no se incluye un factor, no sé si se codifica como un nivel 0 o sencillamente no se incluye. Gracias!

    Me gusta

    • Estimada María,

      Muchas gracias por escribir a Stats SOS.

      Ya entendí mejor lo que me comentas. Si tu no incluyes un factor ocurrirá lo siguiente, pongo un ejemplo:
      Si tu solo incluyes factor 1, compararás sin riego, riego bajo y riego alto sin importar la cantidad de nutrientes.
      Si solo incluyes factor 2 ocurrirá lo contrario, sin nutrientes, con pocos nutrientes o muchos nutrientes sin importar el riego.
      Si incluyes los dos (factor1*factor ) ahí sí incluyes la combinaciones con riego bajo y además pocos nutrientes, etc.

      Espero esta vez haya sido de ayuda. Si no fue el caso, ¿me podrías decir cuáles son tus variables independientes (asumo que los factores) cuál es tu dependiente y cuál es el objetivo de tu estudio?

      Mucho éxito

      Me gusta

      • María dijo:

        Tengo dos factores y dos niveles de cada factor. Estos suman 4 tratamientos. Quiero añadir nuevos tratamientos que consisten en los dos niveles de cada factor actuando si la influencia del otro factor + el control (ningún factor). Estos sumarían 9 tratamientos. Mi duda es si es correcto. Y cómo se debe codificar el nivel 0 “cero” de un factor combinado con los niveles bajo(1) y alto(2). O sea, serían nueve tratamientos, incluido el control, e incluido los tratamientos donde se aparecen los dos niveles de un factor sin la influencia de otro factor. Creo que ahora me he explicado algo mejor, jeje, perdona

        Me gusta

        • Estimada María,

          Sí, no me haría muchos problemas. Lo codificaría de la siguiente manera:
          Factor 1: 0 “sin riego”, 1 “riego bajo”, 2 “riego alto”
          Factor 2: 0 “sin nutrientes”, 1 “bajos nutrientes” 2 “Altos nutrientes”.

          Luego no generaría una nueva variable, sino generaría la interacción de ambos (factor 1*factor 2). En este caso, el programa te codificaría automáticamente las diversas combinaciones que puedes tener. Por ejemplo, 0 “sin riego” + 0 “sin nutrientes” 1 “Riego bajo” + 0 “sin nutrientes”.

          Si deseas también podrías separar todas tus categorías pero sería más trabajoso. El programa te daría todas las opciones, si tu no tienes interés de verlas todas solo prestaría atención a las que te interesan.

          Espero que esta vez si haya podido ayudar, jajaja. Mira si aún no te sientes satisfecha con la respuesta y necesitas más información encantado de que me sigas escribiendo.

          Mucho éxito

          Me gusta

          • María dijo:

            Muchas gracias, sí me has ayudado mucho!!! Estoy comenzado con este tema. Es nuevo para mí y tengo preguntas de novata. Yo es que duda si era correcto codificar el nivel “0” cuando no hay acción de un factor, pensaba que daría problemas con el software estadístico Muchas gracias

            Me gusta

          • Me alegro María. Como son variables categóricas (grupos de condiciones) codificar con un “0” no tendría por qué traerte alguna dificultad.

            Mucho éxito con tu proyecto

            Me gusta

  4. Tamara dijo:

    Hola buenas Tardes! me gustaría saber como corregir la falta de homocedasticidad, en un anova de doble via. Creo que puede realizarse transformando la VD, aunque desconozco como se podrían interpretar y presentar los resultados…..

    Me gusta

    • Estimada Tamara,

      Muchas gracias por escribir a Stats SOS. Es correcto lo que dices, una manera de solucionar el problema es que hagas una transformación de la variable dependiente. Por ejemplo, si utilizas un logaritmo para convertir tus datos lo que podrías hacer es sacar el logaritmo cuando vayas a hacer la interpretación de tu dato exacto. Eso podrías hacerlo con una exponencial. Otra posibilidad es interpretar los datos de frente mencionando que has utilizado un logaritmo para calcular tu modelo. En ese caso, en lugar de interpretar los datos de frente dices “el logaritmo de tal variable es…mayor o menor que el logaritmo de la otra variable”.

      ¡Mucho éxito!

      Me gusta

  5. Roxana dijo:

    Buenas! Encantada con tu explicación, quería preguntarte algo.

    Tengo un experimento en el cual quiero medir si incluir extra información en un mensaje tiene influencia sobre el tipo de decisión que el usuario toma.

    La decisión tiene dos niveles, Hacer algo (una acción determinada) o no hacer nada. El tipo de mensaje tiene dos niveles, mensaje con información extra y sin información extra. He creado 10 escenarios base diferentes, pero con el mismo principio de jugar a tener un papel determinado (dueño de una empresa, restaurante, actividades cotidianas, etc) y cada escenario esta presentado con un tipo de mensaje, es decir al final serían 20 (10 escenarios-mensaje con información y 10 escenarios-mensaje sin información). Básicamente se le presenta solo 10 escenarios aleatorios a un usuario, sin repetir el mismo escenario base, es decir si tienes escenario 1 con información extra, no puedes responder escenario 1 sin información extra.

    Al final quiero determinar, si los mensajes que tienen información extra influyen en tomar decisiones que requieren acción. No me interesa tanto saber si hay interacción entre escenarios y tipo de mensaje, pero si hay interacción entre tipo de mensaje y respuesta. Especificamente si usuarios con el mismo escenario toman más decisiones que requieran acción cuando estan presentes con mensajes con información extra.

    Se puede realizar este análisis con ANOVA? mi variable dependiente seria el tipo de decision de dos niveles. Mis variables independientes serían 1) el tipo de mensaje recibido (dos niveles) y 2) el tipo de escenario recibido (10 niveles dado que son 10 escenarios).

    Me gusta

    • Estimada Roxana,

      Muchas gracias por escribir a Stats SOS. Necesito un poco más de información para ser más preciso en mi respuesta pero asumiendo que “el tipo de decisión” es una variable cuantitativa recién podrías ejecutar un ANOVA. De todos modos, tu ANOVA tendría que ser factorial o de medidas de dos vías. Con este tipo de análisis podrías justamente realizar la interacción que te interesa.

      Por otro lado, si no fuera el caso que las personas generan un puntaje con sus respuestas, y estas fueran dicotómicas (por ejemplo, sí y no) me iría más por una regresión logística. Con la regresión logística podrías incluso realizar la interacción que requieres (aquí el enlace: https://statssos.net/2016/11/22/nuestra-logistica-es-la-regresion-logistica/).

      ¡Mucho éxito!

      Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s