La vida después del ANOVA: el Post Hoc

Queridos amigos, ¿cómo están? Espero que todo bien. Bienvenidos a un maravilloso capítulo de Stats SOS. En la aventura de hoy, presentaremos un post que vendría a ser la continuación del anterior. En esta oportunidad veremos el uso del post hoc, cuando se realiza un análisis de varianza o ANOVA.

En ese caso, el objetivo de la aventura de hoy es presentar y describir de manera muy sencilla el análisis de Post Hoc del ANOVA. En este caso, nos centraremos en dos análisis que son muy comunes, el Scheffe y el Games Howell.

Antes que nada, les pido que se relajen y no se asusten con los nombres, recuerden que estos análisis  aparecen cuando un nuevo matemático descubre una nueva fórmula. Así que respiremos, tomemos algo caliente o una refrescante bebida helada y continuemos.

Como bien ya lo saben, el objetivo primordial del ANOVA es conocer si es que existe diferencia o relación entre múltiples grupos (variable categórica) y una variable de intervalo. Si esto les suena a una lengua oscura y escondida no hay problema, los posts de tipos de variables y del ANOVA podrán ayudarlos a refrescar su memoria. El problema que tiene el ANOVA es que no nos especifica qué grupos se diferencian entre sí. Por está razón se inventaron los análisis Post Hoc.

En ese caso, el objetivo de un análisis Post Hoc de ANOVA es conocer después de haber realizado un ANOVA qué relaciones específicas hay entre los grupos y la variable de intervalo que se quiere medir. En otras palabras, qué grupos específicamente se diferencian entre sí con respecto a nuestra variable de intervalo. ¿Suena traumático? ¡No hay problema! Vamos a un ejemplo para aclarar esta explicación.

En una investigación queremos saber si existe relación y hay diferencias entre el Autoconcepto entre cuatro grupos: presuntos sanos, personas con psicosis, personas con ansiedad generalizada y personas que tienen trastorno evitativo. Intuyo que las personas que siguen más la rama clínica estarán contentas con el ejemplo de hoy.

En ese caso, tenemos dos variables: variable A que serían los cuatro grupos de personas y variable B que vendrían a ser los puntajes de la prueba de Autoconcepto.

¡Muy bien! Ahora que tenemos todos los datos en el SPSS podemos proceder a hacer el análisis, para ello tenemos que seguir la siguiente ruta:

Analizar/Comparar medias/ANOVA de un factor/

En este caso, en la lista de dependientes es necesario poner la variable de intervalo en nuestro ejemplo el puntaje de Autoconcepto. Luego, en la casilla de factor, es necesario poner la variable que representan los cuatros diferentes grupos.

Si se fijan es la misma ruta que el post anterior, sin embargo, a la ruta previamente mostrada tenemos que agregar lo siguiente:

1) Hacemos click en el boton “opciones” y marcamos la casilla “descriptivos” y “Prueba de homogeneidad de las varianzas” (si esto les suena familiar, genial, sino siempre pueden ir aquí a ver qué significa esto). Luego continuar.

2) Hacemos click en el boton de “Post Hoc” y marcamos las casillas “Scheffe” y “Games Howell”. Luego en la parte de abajo verán una casilla vacía que dice “Nivel de significación”. Aquí es necesario poner el nivel de significacia que desean utilizar, por lo general, en las ciencias sociales se usa 5% de significancia así que tendrían que poner 0.05. Si esto no les suena familiar, ¡No hay problema! pueden ir a este post que les dará un pequeño recordatorio de qué significa el 0.05. Luego deben poner continuar y finalmente aceptar.

Entiendo que hay bastantes análisis de post hoc disponibles en esta pestaña, sin embargo, por motivos prácticos he decidido presentar los más utilizados. Si quieren mayor información sobre los otros análisis, siempre pueden dejar un comentario en la sección de abajo. (Ver comentario abajo). 

¡Bueno! Ya estamos casi en la recta final, ¿Siguen aquí conmigo? ¡Espero que sí! Luego de todo lo realizado, deberían salir cinco tablas, pero por motivos prácticos solo pegaremos cuatro de ellas.

Tabla 1: Descriptivos

descriptivos

Esta tabla básicamente les da los estadísticos descriptivos como por ejemplo, la media o la desviación estándar de autoconcepto por cada uno de los grupos. Si no recuerdan qué son estos conceptos, ¡no se angustien! siempre pueden volver a este enlace para resfrescar su memoria.  

 Tabla 2 y 3: Prueba de homogeneidad de varianzas y la prueba ANOVA

homogeneidadanova

Estas dos tablas nos dicen dos cosas muy importantes. Primero, la tabla 2 de homogeneidad de varianzas nos dice si es que las varianzas de los cuatros (uno por uno) son homogéneas (o iguales) o heterogéneas (diferentes). En este caso, por ser mayor a 0.05 la significación las varianzas son homogéneas. Si se fijan, esto es bien parecido a lo que hicimos cuando analizamos t-student. Esto es porque todos estos análisis están relacionados entre sí. Si no se fijaron, ¡todo bien! Un recordatorio de esto, pueden encontrarlo aquí.

Por otro lado, la tabla 3 nos muestra el análisis de varianza o ANOVA. En este caso, el ANOVA tiene una significación menor de 0.05, lo cual significa que podemos decir que sí existen diferencias en los puntajes de autoconcepto entre los grupos. El problema, ¡es que no sabemos entre quienes! Pero todo bien, eso lo veremos a continuación. Los que quieren mayor explicación sobre el ANOVA no hay problema, pueden hacer un viaje en el tiempo hacia este post y revisar lo que significa. 

Finalmente, llegamos a la parte central de nuestro post de hoy. 

Tabla 4: Análisis Post Hoc de Scheffe y Games Howell

PostHoc

 

Lamento que los números de la tabla se vean tan pequeños, pero no se preocupen, si hacen click en la imagen esta aparecerá en un tamaño fácil de leer. 

La tabla 4 nos muestra los análisis de Post Hoc Scheffe y Games Howel. Primero lo primero, ¿Cuándo se debe usar cada uno? ¡Muy sencillo! ¿Recuerdan la tabla 2 de homogeneidad de varianzas? Bueno, esta tabla nos permite decidir cuál análisis usar. Si las varianzas son homogéneas es necesario utilizar Scheffe porque este estadístico está diseñado para esa situación. En cambio, si las varianzas son heterogéneas es necesario utiliza el análisis Games Howell. Ojo, pestaña y ceja, si escogen uno lo mejor es que se olviden del otro porque ambos están diseñados para situaciones distintas.

¡Muy bien! En este caso, tenemos que utilizar Scheffe porque las varianzas son homogéneas (ver tabla 2). ¿Qué nos dice esta tabla? Compara cada grupo, uno contra el otro. La primera columna aparecen todos los grupos que el SPSS los marca como “I” esto significa que es el grupo de referencia con el cual se quiere comparar. La segunda columna salen los grupos “J” que representan a cada uno de los grupos restantes. 

Para darles un ejemplo, en el primer caso, la media de autoconcepto del grupo “Psicosis” se compara contra la media de autoconcepto de los grupos “Trastorno evitativo”, “Ansiedad generalizada” y “Presunto sano”. Los resultados de esta comparación aparecen en la tercera columna titulada “Diferencia de medias I-J”. ¿Qué diablos significa eso? Calma, respiren. Esa columna solo te da el resultado de: la media de autoconcepto del grupo con psicosis (I) – la media de autoconcepto del grupo con trastorno evitativo. Si es positivo, el resultado el promedio de autoconcepto del grupo con psicosis es más alto, si es negativo, el promedio del grupo con trastorno evitativo es mayor. 

Ok, hasta ahí todo muy bonito, pero por favor, dime, ¡¿cómo sé si son significativas las diferencias?! Calma, respira, valiente lector, muy sencillo. Es necesario que veas la columna de la significación.  Si la significación es menor a 0.05 entonces perfecto, las diferencias son significativas, entonces existen diferencias estadísticamente significativas entre las medias de esos dos grupos

En el primer caso, podemos ver que la comparación entre el promedio de autoconcepto del grupo de Psicosis y el promedio de autoconcepto del grupo de trastorno evitativo tiene una significación de 1.00 (ver tabla 4). Esto significa que hay más de 5% de probabilidad (0.05) que los puntajes promedio de estos dos grupos sean iguales o casi iguales. Por ello, no hay diferencias significativas entre los promedios de autoconcepto  de los grupos de psicosis y trastorno evitativo. 

Por otro lado, cuando se compara psicosis y ansiedad generalizada y presunto sano, las significación en ambos casos es menor al 1% (0.00). Por ello, hay una probabilidad menor al 1% de que el promedio de autoconcepto del grupo con psicosis sea igual a los promedios de autoconcepto de los grupos de ansiedad generalizada y presunto sanos. Por ende, sí hay diferencias estadísticamente significativas. 

¿Siguen aquí? ¿Están sanos y salvos? ¡Muy bien! Los felicito por haber llegado a la parte final, solo quedan dos cosas pequeñas por decir. Por un lado, si desean saber las medias de cada grupo para ponerlo en su reporte ¡no hay problema! Estas las pueden encontrar en su tabla de descriptivos.

Finalmente, podemos decir que sí existen diferencias significativas entre los puntajes de autoconcepto entre 3 de los cuatro grupos.  Aquí no se encontraron diferencias entre los puntajes de autoconcepto entre los grupos de psicosis y trastorno evitativo. Sin embargo, sí se encontraron diferencias en el autoconcepto entre los otros grupos. El grupo con mayor promedio de autoconcepto fueron los presuntos sanos y el grupo con menor media fueron las personas con trastorno evitativo.

¡Muy bien! Ya solo faltan, 4 páginas de texto y terminamos. En realidad no, por el momento esto ha sido todo por hoy. Les agradezco mucho haber llegado hasta aquí. Entiendo que este post ha sido bien largo y tedioso, pero creo que era necesario darles las diferentes partes para que sea más fácil entender. Para el siguiente post he decidido virar un poco e ir a uno de los análisis más utilizados y centrales en la estadística básica. La correlación de pearson. Por lo pronto, es todo por hoy. Espero que estén muy bien. ¡Buen fin de semana para todos! ¡Buenas vibras!

Bibliografía recomendada

Miller Jr, R. G. (1997). Beyond ANOVA: Basics of applied statistics. CRC Press.

 

 

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Básico 1.0 y etiquetada , , , , . Guarda el enlace permanente.

61 respuestas a La vida después del ANOVA: el Post Hoc

  1. Hola a todos, les dejo un pequeño comentario sobre la prueba de Scheffe de post hoc. En general, todos los análisis tienen sus particularidades. Por ejemplo, las pruebas Post Hoc de Tukey y Bonferroni, son pruebas antiguas que son muy parecidas a la T-student. Por otro lado, existen pruebas más potentes como la de Welch.
    El problema que tiene el post hoc de Scheffe es que no es una prueba tan potente como por ejemplo la de Welch. ¿Cuál es el problema con esto? Es posible que utilizando Scheffe sus grupos no muestren diferencias significativas, sin embargo con el Welch sí ocurra. Por ende, el Scheffe en muchos casos puede ser una prueba más conservadora, en comparación con la de Welch que es más liberal. Una simple recomendación, Scheffe es la prueba convencional, sin embargo Welch puede ser una prueba más precisa especialmente cuando los grupos tiene una cantidad de gente similar.

    Me gusta

  2. Claudio dijo:

    Estimado JC te agradezco por presentarnos las estadísticas de una manera más sencilla. Quisiera pedirte me ayudes reforzando la conclusión que haces al decir que sí hay diferencias significativas entre tres de los cuatro grupos. Muchas gracias por tu tiempo.

    Me gusta

    • Estimado Claudio, te agradezco mucho haber venido por estos lares para leer este post. Vamos a tu pregunta, en la tabla 4, en la primera comparación (la primera línea donde dice Scheffe). Se pueden ver diferentes combinaciones. En este caso, en la primera columna está el grupo de psicosis bajo la letra “I” y en la segunda columna están los otros tres grupos bajo la letra “J”. Luego, la tercera columna solo te da el resultado cuando restamos los promedios de autoconcepto del grupo de referencia “I” (que en este caso es psicosis) y los otros grupos “J” que son todos los demás.
      Saltemos la columna de “error típico” y vamos directamente a la columna que dice “Sig”. En esta columna podemos ver tres valores. (1.00, 0.00 y 0.00). El valor de 1.00 es la significación cuando comparamos psicosis con trastorno evitativo. Esta significación (1.00) es mayor a 0.05. Esto significa que hay más de 5% de probabilidad que el promedio de autoconcepto del grupo de psicosis sea igual (o casi igual) al promedio de autoconcepto del grupo de trastorno evitativo. Por ello, no podemos concluir que hay diferencias estadísticamente significativas.
      En cambio, si vemos las comparaciones entre psicosis y ansiedad generalizada y presunto sano, podemos ver que en ambos casos, hay menos del 1% de probabilidad que el promedio de autoconcepto del grupo con psicosis sea igual a los puntajes promedio de los grupos de ansiedad generalizada y presunto sano.
      Por ello, se puede decir que sí hay diferencias entre los grupos con psicosis, ansiedad generalizada y los presunto sanos, pero no hay diferencias estadísticamente significativas en los promedios de autoconcepto cuando se compara trastorno evitativo y psicosis.

      ¡Espero que esto haya sido de ayuda! Si necesitas mayor información sobre esto encantado de poder seguir comentando.
      ¡Éxitos! ¡Buenas vibras!

      Me gusta

  3. Claudio dijo:

    Muchas gracias JC. Quedo en espera del próximo post. Saludos desde Ecuador.

    Me gusta

  4. Pingback: Dos caminos, un destino: el ANOVA de dos vías | Stats SOS

  5. Anónimo dijo:

    Juanca, está muy bueno tu blog, me está ayudando mucho con mis alumnas de seminario de tesis, e incluso para mí, hay procedimientos que no hacía hace tiempo,y me sentí más segura repasándolos paso a paso con tus ejemplos. Un abrazo!

    Me gusta

  6. sara030589 dijo:

    estimado Juan Carlos:
    un gusto encontrarme con este post. Tengo unas cuantas preguntas: estoy realizando un análisis en donde se pretende medir la relación del estrés con distintas variables. Te comento que en esta investigación se aplicó una batería de instrumentos que contiene escalas para medir depresión, ansiedad, etc- Mi pregunta es la siguiente: ¿el anova se debe realizar entre una variable de intervalo ( en mi caso los puntajes obtenidos a través de la escala de estrés) y variables sociodemográficas ( sexo, edad, etc) ? ¿ El anova se puede realizar entre dos variables de intervalo ( por ejemplo : la escala de estrés con escala de ansiedad, de depresión, etc?

    Me gusta

    • Estimada Sara,

      Muchas gracias por escribir a Stats SOS. Sobre tu pregunta la respuesta es sí y no. El ANOVA sí se puede aplicar con múltiples variables para medir una variable dependiente (el estrés). Sin embargo, el ANOVA de este post no porque esté post solo usa una variable categórica que se relaciona con una de intervalo (los puntajes de la prueba de estres).
      Dicho esto, te recomendaría ir al post de regresión múltiple. Ahí puedes encontrar toda la información de cómo hacer un análisis con múltiples variables independientes (variables demográficas) y una variable dependiente (la variable de estrés).

      Espero esto ayude

      Mucho éxito!

      Me gusta

      • sara030589 dijo:

        Estimado Juan Carlos:
        Te agradezco por responder a mi pregunta. Tengo dos preguntas más: En el caso de dos variables de intervalo ¿ Se puede aplicar un anova o qué tipo de estadístico se debe utilizar en este caso? Así mismo, me han pedido que realice un post hoc de Tukey, sin embargo, el SPSS no me permite realizar este análisis puesto que tengo menos de tres grups ( la variable es sexo: masculino/ femenino) ¿ Qué tipo de análisis me recomiendas realizar en ese caso? Necesito saber en qué grupo se es que existe la diferenciación. En cuanto al analisis de la regresión multiple que me recomiendas, te comento que eso tengo que realizar después de realizar del ANOVA, ya sabes, recibo órdenes solamente,ya estaré dejando mis comentarios en ese post. Te agradezco infinitamente tu ayuda

        Me gusta

        • Estimada Sara,

          Gracias por escribir a Stats SOS. En este caso el SPSS no te va a permitir hacer un post hoc con dos grupos porque este análisis trabaja utilizando de 3 grupos para arriba. Por ello, te recomendaría utilizar la T-student que trabaja con una vaariable continua y una categórica con 2 grupos.

          Mucho éxito

          Me gusta

  7. Elizabeth dijo:

    Buen día Juan Carlos
    Muchas gracias por tu post. Es de mucha ayuda para personas como yo que vamos iniciando en la aplicación real de estas pruebas. Tengo una duda que espero puedas ayudarme a resolver.. este es mi caso:

    Tengo una batería de 11 pruebas psicométricas en escala de intervalo. Y una variable categórica con 8 grupos. Corro ANOVA de un factor contrastando mi variable categórica con cada una de las escalas psicométricas que utilicé. Al analizar los resultados veo que en varias de mis escalas tengo diferencias significativas entre los grupos (me baso en f y p de anova). Pero al correr el post hoc no encuentro la significancia en los resultados de una escala. Supuse era por el tipo de prueba post hoc que estaba utilizando.. así que en un arranque de desesperación por no entender nada corrí todas las pruebas y en la única que si me arrojaba las diferencias entre grupos era la DMS (diferencia menos significativa). ¿A que se debe que mi anova me muestre diferencias significativas pero mi post hoc no? ¿Por qué la DMS me arroja esas diferencias y las otras no?…Al reportar los resultados ¿Qué es lo correcto… decir que en el posthoc no se encontraron diferencias o mostrar las encontradas con la DMS?
    Como dato, los grupos de mi variable categórica no son similares en número entre si.. varían de 6 a 122 casos.

    Te agradezco la ayuda.

    Excelente día!

    Me gusta

    • Estimada Elizabeth,

      Muchas gracias por escribir a Stats SOS. Para hacer más fácil la explicación iré enumerando las dudas:
      1) El ANOVA y el post hoc son análisis distintos. El primero es una prueba más general a lo largo de todos tus grupos (en general). En el caso del post hoc contrasta cada uno de los grupos uno contra otro (tu grupo 1 contra el 2, el 1 con el 3, etc). Por eso es que muchas veces varios post hoc no salen significativos. Además, el post hoc utiliza una prueba de t-student para realizar cada una de estas comparaciones.
      2) La DMS probablemente te muestra diferencias significativas entre grupos a diferencia de otros análisis porque cada uno de los análisis de post hoc utiliza un cálculo distinto. Hay ciertos análisis donde la prueba es más liberal y es más fácil obtener resultados significativos. A su vez, hay otros más conservadores que a menos que las diferencias sean fuertemente marcadas, no te salen significativos.
      3) Yo no reportaría los DMS, es mejor que sepas qué análisis de Post Hoc estás usando. Reportaría que el ANOVA es significativo pero no el Post Hoc. Sin embargo, haría otra cosa. No compararía un grupo de 6 contra uno de 122 esa es una comparación bien desigual y sesgada. Lo que podrías hacer es colapsar grupos (agrupar los grupos más pequeños en uno y hacerlos más grandes y pondría un nombre a ese grupo). De este modo podría comparar entre grupos mucho más equitativos entre sí.
      (Este enlace podría ser de ayuda para lograr hacer esto: https://www.youtube.com/watch?v=8OSr-42wlfc)

      Luego de colapsar los grupos volvería a correr el ANOVA pero con grupos más equitativos.

      Gracias a ti por escribir y encantado de poder ayudarte. Lamento la demora, pero intentaré responder más rápido.

      Excelente día para ti y mucho éxito

      Me gusta

  8. Daniel dijo:

    Si al realizar una ANOVA de una vía existe diferencia significativa de las medias, puedo realizar una regresión múltiple para cada grupo y definir cuales son las variables que explican el comportamiento de la variable dependiente y el porque de las diferencias. ?

    y una segunda pregunta. necesito estimar el numero de trabajadores necesarios para obtener una buena productividad, que análisis me recomiendas?

    Me gusta

    • Estimado Daniel,

      Muchas gracias por escribir en Stats SOS. Sobre tu primera pregunta en esencia un ANOVA es lo mismo que una regresión múltiple. Si cada uno de tus grupos del ANOVA los conviertes en variables 0 y 1 y haces el análisis con una regresión lineal múltiple los resultados tendrían que ser casi iguales por no decir iguales.

      Sobre tu segunda pregunta, yo haría una regresión lineal múltiple si es que tienes la variable continua de productividad. Sobre el tamaño de muestra no hay una regla general pero mientras más es mejor. Más allá de pensar en una buen productividad creo que una mayor productividad vendría a ser más preciso. De este modo, utilizas variables predictores o independientes que tu consideres que pueden generar una mayor productividad y como variable dependiente la productividad.

      Mucho éxito

      Me gusta

      • Daniel dijo:

        Gracias Juan Carlos.

        Quiera hacerte otra pregunta, tengo una variable dependiente que toma valores positivos y negativos, y al hacer una regresión múltiple no se cumple el supuesto de normalidad, que transformación me recomiendas??.

        Me gusta

        • Estimado Daniel,

          Yo seguiría adelante porque la normalidad no es con los puntajes sino con los errores de las variables. Pero si quieres hacer una transformación podrías hacer dos:
          1) Aplicar un logaritmo natural con base 10 a tus datos.
          2) Estandarizar tus puntajes con un puntaje Z.

          Ambos tendrán una distribución normal

          ¡Mucho éxito!

          Me gusta

          • Daniel dijo:

            Juan Carlos, entiendo que la normalidad debe cumplirse en los residuos, pero como los residuos no son normales, puedo aplicar una transformación para solucionar el problema, pero la transformación debo hacérsela a la variable dependiente y como esta toma números positivo y negativos, necesito que me recomiendes una.

            Me gusta

          • Hola Daniel,

            La transformación se suele hacer a los predictores pero si quieres transformar tu variable dependiente utilizaría aplicar un logaritmo natural de tal manera que reduces la varianza pero tus puntajes tendrán una distribución cercana a la normal.

            ¡Mucho éxito!

            Me gusta

  9. Daniel dijo:

    Juan Carlos, Junto con saludarte y felicitarte por la ayuda que prestas. Quisiera hacerte una pregunta. El otro día te pregunte por algún tipo de análisis estadístico para estimar la cantidad de trabajadores necesarios para optimizar la productividad. tu me recomendaste una regresión múltiple. Ahora quiera saber si existe otro tipo de análisis.. Agradecería mucho tu ayuda..saludos

    Me gusta

    • Hola Daniel,

      Muchas gracias por escribir a Stats SOS. ¿Me podrías dar un poco más de información? De que existen otros análisis de todas maneras pero no tengo muy claro el marco de lo que quieres hacer. Lo que te dará la regresión es cómo por cada trabajador extra aumentará la productividad, eso te da el análisis.

      Pero también sería importante saber a qué te refieres con una óptima productividad, ¿desde un valor de productividad para arriba se puede hablar de óptima productividad? ¿Optimizar se refiere a mejorar la productividad? Depende de qué tipo de variables tienes se puede hacer diversos análisis.

      Espero que esto despeje algunas dudas

      ¡Mucho éxito!

      Me gusta

      • Daniel dijo:

        Tengo información de la variable productividad y numero de trabajadores desde el 2014 2015 y 2016 más un grupo de variables sociodemográficas. La idea de estimar el número de trabajadores es porque se a observado que al disminuir el número de trabajadores en ciertos periodos, la productividad aumenta, como también sucede que en un periodo diferente, al aumentar el número de trabajadores la productividad también aumenta. no se si me explico.

        Me gusta

        • Estimado Daniel,

          Muchas gracias por escribir a Stats SOS. En ese caso, parece que la relación cantidad de trabajadores y productividad tiene una relación cuadrática (o incluso cúbica).
          En ese caso, podrías hacer varias cosas:
          – Hacer una variable que agrupa los trabajadores por cada año (2014, 2015, 2016).
          – Podrías juntar a todos los trabajadores y ademas del efecto lineal agregar un efecto cuadrático hasta cúbico (elevas al cuadrado y/o al cubo tu variable de cantidad de gente y la metes en tu modelo de regresión).
          – Podrías revisar si hay un efecto de interacción entre el año y la cantidad de trabajadores. Si el efecto de la cantidad de trabajadores en la productividad varía por cada uno de los años.

          Espero esto ayude

          ¡Mucho éxito!

          Me gusta

  10. Daniel dijo:

    Juan carlos, tengo una duda: para hacer una regresión múltiple tengo un grupo de variables independientes y una de ella es una variable cualitativa con tres categorías, Por lo que debo crear dos variables dummy para introducirlas al modelo, ademas, una de esas categorías tiene un caso. Por ejemplo, la variable estado civil ( soltero, casado, separado), cuya frecuencia para cada una de las categorías son: Soltero 35 casos, Casado 19 casos y Separados 1 caso. Ahora viene mi duda: Es necesario consideras la categoría separados ya que esta solo tiene un caso…?? . Te lo pregunto por si es que esta categoria con un solo caso puede influir al momento de calculo y al momento de la interpretación si es que las variables dummy es significativa. Espero comprendas mi pregunta.

    Me gusta

    • Daniel dijo:

      otra pregunta, un modelo de regresión múltiple, por cuanto tiempo es valido….???

      Me gusta

    • Estimado Daniel,

      Muchas gracias por escribir a Stats SOS. Creo que en tu caso tienes dos opciones:
      1) Juntaría grupos, en otras palabras uniría la variable “separado” con “soltero” o “casado”.
      2) Podrías retirar ese caso que la persona tiene estado “separado” dado que podría generar ruido innecesario en tu análisis más que aportar.

      El problema de agregarlo como un dummy separado es que estarías llenando tu modelo con variables y eso podría hacer que tu R cuadrado se infle de manera artificial. Entonces yo optaría por no incluirlo como predictor (como dummy solo) en mi análisis.

      Sobre tu segunda pregunta creo que un modelo de regresión es valido hasta que pasen un aproximado de 5 años (esa es una regla al ojo, no hay algo escrito) o que alguien encuentre un hallazgo sumamente fuerte que rebata tu modelo de regresión. Creo que no me preocuparía tanto por eso, pero si es importante siempre volver a revisar el modelo que se probó alguna vez.

      ¡Mucho éxito!

      Me gusta

      • Daniel dijo:

        Muchas gracias nuevamente Juan Carlos. Respecto a tu primera respuesta, realice dos regresiones múltiples, la primera dejando cada una de las categorías sin importar su frecuencia, oteniendo un R cuadrado de 47,8% (bajo), y una segunda regresión agrupando las categorías, es decir, agrupe las categoria Casado y Conviviente en solo una categoría llamada ” En pareja” y deje sin agrupar a los solteros, por lo tanto, me quedo la variable estado civil con dos categorías, Solteros y En Pareja. y el R cuadrado para ese modelo es de 21%. sabiendo que el primer modelo explica un 26% mas que el segundo, Con cual debería quedarme..???

        Me gusta

        • Estimado Daniel,

          Muchas gracias por escribir a Stats SOS. No, es probable que tu R cuadrado sea más alto porque tienes una mayor cantidad de variables. Que un modelo ajuste mejor a los datos no se determina utilizando el R cuadrado sino comparando modelos utilizando una prueba de chi cuadrado. Primero revisa eso y luego determinaría con cuál quedarme.

          Al ver la tabla de ANOVA y revisando la cantidad de varianza residual (intra-grupos) podrías revisar qué modelo ajusta mejor. Mientras menor es la varianza intra grupos mejor será tu modelo. Pero para ver si hay una diferencia significativa entre dos modelos, tendrías que comparar la diferencia de ambas varianzas residuales y ver si ese valor es mayor al valor de la tabla para una confianza de 95%. Dado que la diferencia es solo una variable independiente entre modelos, si la diferencia de la varianza residual entre grupos es mayor a 3.196 entonces, sí existe una diferencia significativa entre los grupos.

          ¡Mucho éxito!

          Me gusta

  11. Daniel dijo:

    Muchas gracias Juan Carlos. Otra duda, la interpretación de un coeficiente de regresión: Por ejemplo, si el coeficiente de regresión para la variable edad es -19,32 y la variable dependiente es ´ventas (Dólares), la interpretación estaría dada por: Al aumentar en un año la edad de un vendedor, las ventas disminuyen en promedio 19,32 dolares, o, Al aumentar en un año la edad PROMEDIO de un vendedor, las ventas disminuyen en 19,32 Dólares. Cual de las dos interpretaciones es la correcta. Lo pregunto, porque me imagino que debemos tener una edad de referencia para decir que al aumentar esa edad, las ventas disminuirán en 19,32 Dólares….Gracias de antemano.

    Me gusta

    • Hola Daniel,

      Muchas gracias por escribir en Stats SOS. Eso depende de ti, a veces hay gente que centra sus datos y la edad promedio de toda la muestra es el punto de partida. En otras oportunidades, se puede partir de 0 y por cada año extra ocurre un aumento o disminución de la venta. Por lo general, se parte de 0, pero también se puede partir del promedio de edad del estudiante.

      En tu caso buscaría en internet la manera de centrar la edad de tal manera que partas del promedio de edad de tu muestra para interpretar tu regresión.

      ¡Mucho éxito!

      Me gusta

  12. Daniel dijo:

    Nuevamente agradezco tu ayuda. Juan carlos, me asalta una duda, Si tengo una variable categoria con 4 categorías y producto de eso debo crear 3 variables dummy. ahora mi pregunta es, si una de estas variables dummy es significativa en el modelo, debo incluir incluir las 3 variables al modelo o solo la que es significativa…???

    Me gusta

  13. Daniel dijo:

    Hola Juan Carlos, Gusto en saludarte.

    Quisiera hacerte una pregunta, para un modelo de regresión múltiple, mi variable dependiente puede ser una variable en porcentaje que varíe entre 0 y 100 %..??

    Me gusta

  14. Daniel dijo:

    Estimado juan carlos, gusto en saludarte. quisiera saber si puedo hacer correlaciones de pearson entre dos variables medidas en porcentaje..???

    saludos…!!

    Me gusta

  15. Daniel dijo:

    Estimado Juan Carlos, Gusto en saludarte. Quisiera saber si tu conoces algún método para ponderar variables. Lo que pasa es que tengo dos variables y necesito darle peso a estas, se cual de estas dos es mas importante, pero necesito saber cuanto peso debo darle. Me podrías ayudar por favor.

    De antemano, muchas gracias..!!

    Me gusta

    • Estimado Daniel,

      Muchas gracias por escribir a Stats SOS. Hay muchos métodos para ponderar variables. Pero uno que puede ser útil, práctico y poco complicado podría ser hacer una regresión lineal múltiple poniendo a todas tus variables como independientes y a la que quieres probar como dependientes. Luego del cálculo, Tomás los betas estandarizados y pesas cada una de tus variables con ese beta.

      Espero me haya dejado entender.

      Mucho éxito!

      Me gusta

  16. Alexander dijo:

    Estimado Juan Carlos, ¿la prueba de Scheffe tiene otros criterios para utilizarse? Leí que también se usa cuando el tamaño de los grupos es diferente. Yo tengo 5 grupos distribuidos de la siguiente forma:
    2do grado: 18 niños
    3er grado: 28 niños
    4to grado: 24 niños
    5to grado: 21 niños
    6to grado: 29 niños

    He calculado la homogeneidad de varianzas y no en todos los casos me sale que exista. A veces es heterogénea cuando comparo los grupos por dimensiones.
    ¿Qué prueba post hoc es más recomendable en este caso?

    Gracias nuevamente!

    Me gusta

    • Estimado Alexander,

      Muchas gracias por escribir a Stats SOS. La prueba de Scheffe se usa cuando tienes varianza homogeneas pero cuidado hay textos que dice que puede generar un sesgo cuando los grupos tienen tamaños de muestra muy diferentes.
      Cuando la varianza es heterogenea una excelente opción es utilizar el análisis de post Hoc de Games Howell. Los criterios son los mismos para cualquier prueba de post hoc. En esencia, estos análisis son t-students pero corrigiendo el hecho que hagas múltiples t -students independientes, se realiza todo en conjunto para reducir el error tipo 1.

      ¡Mucho éxito!

      Me gusta

      • Alexander dijo:

        Estimado Juan Carlos, ¿entonces podría, en todo caso, utilizar la prueba de Tukey para los grupos que te comento y que cumplen con tener varianzas homogéneas?. Ya tengo claro que para los grupos que no tienen varianzas homogéneas deberé usar Games-Howell. ¡Gracias!

        Me gusta

  17. liz dijo:

    Hola, quisiera saber que otras pruebas post hoc existen y si existen pruebas post hoc no paramétricas. Muchas gracias

    Me gusta

    • Estimada Liz,

      Muchas gracias por escribir a Stats SOS. Existen el Tukey, Bonferroni, Welsch,entre otras. No existen pruebas no paramétricas post hoc. Lo que te recomendaría es usar U-Mann Whitney o W de Wilcoxon pero asumiendo una prueba de significancia ya no menor a 0.05 sino 0.01.

      ¡Mucho Éxito!

      Me gusta

      • Andre dijo:

        Hola, en serio? y si mis datos son no parametricos, aplique un Modelo Lineal Generalizado con distribucion binomial negativa. Y me sale diferencias significativas entre cada una, como puedo ver donde existen esas diferencias (que normalmente lo vemos haciendo un Post Hoc)??

        Me gusta

        • Estimado Andre,

          Muchas gracias por escribir a Stats SOS. ¿Me podrías ampliar la explicación un poco más? Intuyo que te estás refiriendo a un test de Wald pero no estoy muy seguro.

          ¡Mucho éxito!

          Me gusta

          • Andre dijo:

            Hola Juan Carlos, mis datos son de conteo y tienen muchos ceros. Son datos no parametricos. Realicé un GzLM (Modelo Lineal Generlizado) con distribución binomial negativa (similar a poisson), donde me indica que existen diferencias significativas entre cada grupo. Ahora yo quiero saber exactamente donde se encuentran las diferencias, entre cuales grupos.. (como cuando haces posthoc), es posible hacer eso? o qué me recomidas?

            Le gusta a 1 persona

          • Estimada Andrea,

            Disculpa por ponerte Andre, ahora vi tu correo que te llamas “Andrea”. Mira si tienes una distribución similar a una poisson podrías en lugar de hacer un GLM, podrías ir por las pruebas no paramétricas ordinales. Si tienes múltiples grupos podrías usar Kruskall-Wallis que vendría a ser el equivalente a un ANOVA pero no paramétrico. Si encuentras diferencias significativas podrías usar la U-Mann Whitney pero en lugar de usar una significancia de 0.05 podrías usar una de 0.01 de tal manera que sopesas el error que puedes generar por múltiples análisis (capitalizar por análisis).
            Ojo: Estos análisis ordinalizan los datos y te van a botar un rango promedio que no se si sea muy útil para ti. La solución para eso podría ser tener como referente la mediana pero con la significancia de las pruebas previamente mencionadas.

            Aquí te comparto el post sobre U-Mann Whitney: https://statssos.net/2015/04/26/no-es-parametrico-y-ahora-como-comparo-la-u-de-mann-whitney/.

            Kruskall-Walis podrías encontrarlo en cualquier libro de estadística el más sencillo y amigable que se me ocurre es el famoso “Discovering statistics using SPSS” de Andy Field.

            ¡Mucho éxito!

            Me gusta

  18. Mar dijo:

    Hola si tengo cuatro grupo, y la media de la edad de los cuatro es similar. Sirve de algo que le realice anova ?

    Me gusta

    • Estimado Mar,

      Muchas gracias por escribir a Stats SOS. Si tienes 4 grupos y quieres medir si existen diferencias significativas en edad entre los grupos el ANOVA sí sería el análisis correcto. ¿Me podrías ampliar más tu pregunta para darte mayores alcances?

      ¡Mucho éxito!

      Me gusta

  19. Hino dijo:

    Saludos y gracias por este espacio y explicaciones tan sencillas, tengo una duda, quiero correr en Rstudio un poshoc de datos, me piden en el ejemplo:
    # Análisis de interacciones post-hoc con phia
    # Probando el efecto de DENSIDAD.F manteniendo la ESTACIÓN fija
    testInteractions(_____, fixed=”______”, across=”________”)

    de este ejemplo:Quinn (1988) examinó los efectos de la estación (invierno/primavera y verano/otoño, variable de factor, ESTACION) y la densidad de adultos (6, 12, 24 animales por 225 cm2 de encierro; variable numérica, DENSIDAD) sobre el número de masas de huevos de lapas pulmonadas (Siphonaria diemenensis), en la zona inferior intermareal. Los datos se encuentran en el archivo quinn1.csv, observándose la combinación de los dos grupos de estaciones y las tres densidades. Este estudio se describe en la caja 9.4 de Quinn & Keough (2002), págs 224-225.
    añadi los comandos
    # Análisis de interacciones post-hoc con phia
    # Probando el efecto de DENSIDAD.F manteniendo la ESTACIÓN fija
    testInteractions(HUEVOS, fixed=”ESTACION”, across=”DENSIDAD”)
    pero me dice que el objeto HUEVOS no found, que estoy haciendo mal

    Me gusta

    • Estimado Hino,

      Gracias por escribir a Stats SOS. Te pido por favor me digas que paquetería de R estás usando para mirarla un poco más porque creo que tu problema es más de carácter computacional que estadísticos (teórico). A ojo de buen cubero veo que no estás especificando una data por donde pueda sacar el R las variables que estás poniendo. ¿Podrías ser más específico por favor?

      Mucho éxito

      JC

      Me gusta

  20. Estefanía Piña dijo:

    Hola Juan Carlos,

    Ante todo quiero agradecerte por tus posts, ya que me han ayudado mucho en la realización de mi TFM. Mi caso es el siguiente:

    En parte de mi investigación estoy explorando la relación que tiene el narcisismo con la autoestima. Esta ultima esta categorizada como Baja, Media y Elevada por el test que utilicé. Cuando el hago el ANOVA, me da una significación de 0.019. Sin embargo, cuando hago el post hoc de Tukey como me recomendó mi tutor, no sale significación entre ninguno de los grupos. Solo aparece la significación cuando utilizo la DMS.

    Quisiera saber por qué pasa esto y que significa realmente? Como puedo reportarlo?

    Muchas gracias y quedo a la espera de tu respuesta.
    Estefanía

    Me gusta

    • Estimada Estefanía,

      Muchas gracias por escribir a Stats SOS. Lo que ocurre es que DMS es una prueba de T-student que no corrige por múltiples comparaciones (por ello no es muy recomendado). En cambio Tukey sí establece una tasa de error por múltiples comparaciones (por eso te lo recomienda tu tutor). Es posible que la prueba de DMS por las múltiples comparaciones que no están siendo corregidas está generando que caigas en un error tipo 1. Ver más aquí: https://statssos.net/2014/11/24/errores-existian-errores-en-estadistica/.

      Por ello, no te recomendaría utlizar DMS ni Tukey (por la razón que expusiste en tu mensaje siguiente). El Tukey al igual que el Scheffe son sensibles a las diferencias amplias en la cantidad de personas entre tus grupos. ¿Cuál sería la solución? Utilizaría el estadístico R-E-G-W F. (Ryan-Einot-Gabriel-Welsch) que es una suerte de ANOVA pero que te arroja comparaciones por cada grupo y corrige por la cantidad de muestra entre grupos y las múltiples comparaciones. Para sustentarle a tu tutor siempre puedes ir al libro de Discovering statistics using SPSS de Andy Field.

      ¡Mucho éxito!

      Me gusta

  21. Estefanía Piña dijo:

    He leído que la prueba Tukey se utiliza cuando los grupos están equilibrados. Este no es mi caso ya que los grupos tienen N distintas (Baja N = 29, Media N = 31 y Elevada N = 114).

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s