Gonzalo apoya la aditividad: Los 4 supuestos de la regresion lineal

Estimados todos, bienvenidos a otro capítulo de Stats SOS. En el post de hoy verán que hemos cambiado un poco. Un amigo seguidor de la página me insistió en ser participe en uno de los posts. Por ello, nuestro amigo Gonzalo participará junto conmigo en el episodio de hoy.

Como bien dice el título, la aventura de hoy está relacionada con la regresión lineal. En este caso, veremos cuáles son los supuestos que se necesitan para ejecutar una regresión lineal múltiple. 

Primero que todo, en sencillo, una regresión lineal múltiple es un análisis de regresión donde se busca relacionar múltiples variables de intervalo o nominales (Variables independientes) con otra variable más (Variable dependiente). En otras palabras, es una extensión de la regresión lineal simple, los que no recuerdan qué es esto, siempre pueden ir a este post que los puede ayudar.  Por otro lado, para los que no recuerdan qué es una variable de intervalo o nominal, siempre pueden ir a este post.

Nota importante: Este post no va a tratar de la regresión múltiple en su totalidad. Hemos decidido con Gonzalo, que es mejor separar los supuestos de la regresión y el análisis en sí para evitar hacer un post demasiado largo.

¡Muy bien! ¡Vamos a lo nuestro!

La regresión múltiple tiene 4 supuestos importantes que hay que seguir para hacer un análisis preciso y no sesgado:

1) Normalidad

2) Relación lineal

3) Aditividad y Multicolinealidad

4) Homocedasticidad

Un tema importante, el punto 1 y el 2, se revisan o se prueban antes de hacer la regresión final, mientras que el 3 y 4, por lo general se prueban después que se hizo la regresión lineal.

Normalidad: 

Esto se refiere a que todos nuestros datos, tanto nuestras variables independientes así como nuestra variable dependiente, tienen que tener puntajes que están distribuidos normalmente. Más específicamente los residuos (error) de estos puntajes deben tener una distribución normal. ¿Por qué es importante esto? La regresión es un análisis lineal y por ello, trabaja con relaciones lineales. Cuando los errores de las variables tienen distribución no normal, pueden afectar las relaciones y la significancia (¿Qué es eso? Ver post). ¿Por qué se enfocan en los errores y no la medición en sí? Porque en una regresión lineal también es posible poner variables dicotómicas (sexo) y estas no tienen una distribución normal (Williams, Grajales, & Kurkiewicz, 2013).

¡Excelente! ¡Sigamos avanzando! Este fue el calentamiento, pero estoy seguro que todo irá bien.

Relación lineal

Este segundo supuesto está dirigido a la relación entre las variable independientes y dependiente. La relación entre cada variable independiente con la variable dependiente debe ser lineal. En otras palabras, y como bien conocemos, debe haber una correlación entre las variables independientes y la dependiente.  ¿Qué era una correlación o relación? ¡Muy sencillo! Este post les puede dar indicios de qué es una correlación entre dos variables. Ojo, pestaña y ceja: los análisis de correlación se deben hacer antes de la regresión para poder saber qué variables tienen relación con la que deseamos medir. ¿Por qué? Porque este análisis previo nos permitirá saber qué variables incluimos en nuestro modelo de regresión. 

¿Siguen acá? ¿Está todo bien? Me imagino que sí, ¡sigamos adelante como siempre!

Additividad y multicolinealidad

La aditividad se refiere a que el modelo de regresión lineal es aditivo. ¿Qué cosa? ¿Qué diablos es aditivo? Bueno, muy sencillo, que cada variable independiente por sí sola, suma a la explicación de la variable dependiente. En otras palabras, no hay relación entre las variables independientes. Si hubiera relación entre las variables independientes de nuestro modelo, tendríamos un problema. Nuestra dificultad, tiene nombre y se llama multicolinealidad. ¡Mero problema, con las justas lo puedo pronunciar! ¿Qué significa esto? La multicolinealidad es cuando dos variables independientes están relacionadas. ¿Por qué es un problema?

Por una razón sencilla: Si hay  relación entre dos variables entonces son muy parecidas y por ello tener las dos no aporta nada a explicar mejor nuestra variable dependiente. Les pongo un ejemplo, imagínense que tenemos un album de figuritas del mundial y sólo nos faltan dos. Si compramos unas figuritas en la tienda y nos vienen dos iguales y entre ellas está una de las que nos faltaba, esto no nos va a permitir llenar el album. Lo mismo pasa con la multicolinealidad, dos variables independientes muy relacionadas que parecen iguales no nos ayudarán a explicar más nuestra variable dependiente o a llenar el álbum.

¿Cómo se revisa si hay la terrible multicolinealidad? ¡Muy sencillo! Existen dos maneras: a) Previo a hacer nuestro modelo de regresión múltiple analizar con una correlación de Pearson (ver post), para ver si hay relación fuerte entre nuestras variables independientes. b) Durante el análisis estadístico de regresión múltiple se le puede pedir al programa, diagnósticos de multicolinealidad. Antes que se lancen encima de mi y del pobre Gonzalo sobre esto y pregunten ¿por qué no hay un post de ello? ¡No se preocupen! Luego de este post, escribiré un post sobre Multicolinealidad profundizando un poco más esto. :). Esta es más una introducción a este punto.

En el caso del post de multicolinealidad, nuestro amigo Gonzalo no va a poder acompañarnos porque seguro resumirá sus actividades de salvar el mundo y proponer políticas públicas. Pero yo seguiré aquí acompañándolos en nuestra aventura :).

Homocedasticidad

¡Muy bien! ¡Llegamos a la recta final! ¿Qué diablos es la homocedasticidad? ¡Muy sencillo! La homocedasticidad es cuando la varianza de los errores de medición de nuestro análisis es igual para todas las variables independientes. ¿Qué era varianza? No hay problema, aquí un pequeño recordatorio de lo que es una varianza. A su vez, cuándo esta varianza es diferente entre las diferentes variables independientes tenemos un problema de Heterocedasticidad. Según algunos autores, ¡esto puede ser un gran problema! ¡Qué miedo! ¿Por qué? La Heterocedasticidad puede arruinar nuestros resultados y hacernos caer en un error. ¿En cuál? Podríamos asumir que algo está relacionado cuando en realidad no lo está. ¿Se acuerdan cómo se llama esto? Los que no, no hay problema, pueden ir a este post para refrescar la mente (Tabachnick, & Fidell, 1996, 2001). Los que sí se acuerdan, estoy seguro que saben el tipo de error al que nos referimos.

Así como la Multicolinealidad, hay una manera de revisar si existe Homocedasticidad en nuestros datos. En este caso, no vamos a comentar la ruta que hay que seguir porque lo veremos en la regresión múltiple. Lo que sí les podemos contar es que se revisa un gráfico, y si la varianza del error de nuestras variables independientes está relacionada con la varianza que predice nuestra variable dependiente estamos fregados. Porque hay Heterocedasticidad, el error no debe estar relacionado con nuestra capacidad para predecir nuestra variable dependiente. Para mayor referencia pueden ver Osborne y Waters, (2002).

¡No se asusten! Vamos a ver esto nuevamente. Relájense respiren y todo irá bien.

¡Bueno! Ya estamos en la recta final. Espero que les haya gustado el post de hoy.

Hay un tema importantísimo a tomar en cuenta. Todos estos supuestos se dan asumiendo que nuestros datos son confiables. En este caso, no agregamos un punto sobre confiabilidad por dos razones: a) Vamos a verlo luego :). b) Creemos que la confiabilidad es un supuesto que se aplica para todos los análisis y no exclusivamente para la regresión.

¿Están vivos? ¿Llegaron a la meta? ¡Excelente! Si es así, la verdad que los felicitamos, consideramos que este post es bien importante porque nos permite hacer análisis de regresión de manera eficiente y reduciendo el sesgo (error) de nuestros análisis. Para decir algo contundente hay que revisar que nuestros análisis estén bien hechos. Estamos seguros valientes lectores que este es el caso de ustedes.

Quiero agradecer a nuestro amigo Gonzalo, seguidor del blog por hacerse presente el día de hoy.

Para la siguiente aventura de Stats SOS, pasaremos nuevamente al mundo no lineal, veremos la W de Wilcoxon para de paso crear un poco de expectativa antes de entrar completamente a la regresión múltiple. 🙂

¡Buenas vibras para todos!

Referencias

– Osborne, Jason & Elaine Waters (2002). Four assumptions of multiple regression that researchers should always test. Practical Assessment, Research & Evaluation, 8(2).

– Tabachnick, B. G., Fidell, L. S. (1996).  Using Multivariate Statistics (3rd ed.).  New York: Harper Collins College Publishers

– Tabachnick, B. G., Fidell, L. S. (2001).  Using Multivariate Statistics (4th ed.).  Needham Heights, MA:  Allyn and Bacon

– Williams, M., Gómez, C. A. y Kurkiewicz, D. (2013). Assumptions of multiple regression: correcting two misconceptions. Practical Assessment Research & evaluation, 18, 11, 1-14.

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Regresiones y etiquetada , , , , , . Guarda el enlace permanente.

21 respuestas a Gonzalo apoya la aditividad: Los 4 supuestos de la regresion lineal

  1. Juan Pablo dijo:

    La homocedasticidad o heterocedasticidad de los datos no se prueba después, sino antes de implementar la regresión múltiple con un simple scatterplot. Esto nos indica si debemos transformar los datos utilizando una de las muchas opciones, por ejemplo, la transformación logarítmica.

    Me gusta

    • Estimado Juan Pablo,

      Gracias por escribir en el blog. Sí, es cierto lo que dices, se puede hacer un ploteo de los residuos contra los predictores antes para probar homocedasticidad o heterocedasticidad. Sin embargo, también lo puedes hacer mientras que haces el análisis utilizando por ejemplo SPSS. Ahí, el programa te da la opción de mostrar el mismo gráfico que mencionas.
      Si tuvieras un problema de heterocedasticidad, una salida es como bien dices, aplicar una transformación utilizando un logaritmo para reducir la variabilidad y a su vez tener mayor probabilidad de tener homocedasticidad.
      Esto se suele hacer mucho en estudios cuando se quiere predecir salarios que tienen distribuciones sumamente asimétricas. Luego al final aplicas un exponencial para retomar el valor previo.
      Tienes razón, lo importante es tomar en cuenta es cuando haces una regresión no pruebas un modelo y te quedas con solo ese sino que vas probando bastantes hasta que te quedes con el mejor se ajusta a tus datos y explica mejor.
      ¡Muchas gracias por comentar!
      ¡Buenas vibras!

      Me gusta

  2. Daniel dijo:

    Hola Juan Carlos! Una consulta, en caso se trate de una Distribución No Normal, existe algún estadístico no paramétrico para realizar el análisis de Regresión Multiple?
    Gracias!!

    Me gusta

    • Estimado Daniel,

      ¡Gracias por escribir en el blog! Mira, yo no me preocuparía por la distribución de mis puntajes.
      El impedimento aparece cuando los errores o residuos de nuestras variables no tienen una distribución normal. (Eso lo puedes consultar en la fuente que puse arriba).
      El análisis de regresión múltiple es suficientemente robusto (acapara el espacio suficiente) para darte análisis precisos sin tener variables con una distribución normal. Eso no es un problema.
      Sí existe una regresión no lineal (en lugar de no paramétrica), por supuesto que sí. Existe la regresión logística, que utiliza variables nominales y ordinales. Ojo, hay gente que te diría que en teoría la regresión logística es parte de la familia lineal porque es parte del grupo de análisis log lineal. Sin embargo, es no lineal porque al usar un Log (Logaritmo) que se multiplica, se vuelve un modelo multiplicativo que es no lineal.
      Sin embargo, el punto, y lo más importante es que la regresión logística utiliza variables nominales u ordinales (las clásicas categorías) como dependientes a diferencia de la clásica regresión múltiple que usa variables de intervalo (los clásicos números) como dependientes. Entonces es completamente otra lógica.
      Cerrando con tu pregunta, sí, hay opciones y la regresión logística es una opción cuando no confías en la escala de intervalo (número) de tus variables y prefieres usar categorías (ordinales o nominales).
      Entiendo que esto se puso un poco técnico pero espero que me haya dejado entender, sino encantado me escribes.
      ¡Buenas vibras!

      Me gusta

  3. Pingback: Un día llegó la regresión múltiple | Stats SOS

  4. Hilda dijo:

    Hola Juan Carlos estuve de vacaciones y regresé perdida por fa me puedes recordar cuando usar kolmogorov y Shapiro para la prueba de normalidad.

    Me gusta

  5. Yelly Pacheco Medina dijo:

    Hola necesito tu pronta ayuda en saber por qué se utiliza Kolmogorov smirnov y u de mann whitney en la la prueba de normalidad

    Me gusta

  6. Anónimo dijo:

    Hola, me podríos explicar como se interpreta la prueba de white para aceptar o rechazar homocedasticidad y heterocedasticidad, no me queda muy claro aun.
    Saludos y gracias.

    Me gusta

    • Estimad@,

      Muchas gracias por escribir a Stats SOS. La prueba de White lo que busca es conocer si es que hay homocedasticidad (varianzas o residuos iguales a lo largo de todos los predictores o grupos del constructo).
      Entonces, esta prueba plantea una prueba de hipótesis:

      H0 = Los residuos de las variables son equivalentes para todos los predictores. (Homocedasticidad)
      H1 = Los residuos de estas variables son diferentes. (Heterocedasticidad)

      De este modo, si el test de white, sale con un Chi cuadrado muy alto, probablemente la significancia estadística (o valor P) será menor a 0.05 lo cual te lleva a rechazar la hipótesis H0. Si ocurre esto, quiere decir que no hay homocedasticidad y por ende hay heterocedasticidad.

      En caso contrario, si el chi cuadrado es muy pequeño es probable que la significancia estadística sea mayor a 0.05 y por ende no puedas rechazar la H0. Si ocurriera este caso, entonces habría Homocedasticidad.

      ¡Mucho éxito!

      Me gusta

  7. FRANCISCA dijo:

    Estimado
    Junto con saludar, quería preguntar que sucede con los otros supuesto de la regresión múltiple ya que tengo entendido que son 9 en total, que pasa si rompen los otros supuesto no mencionados acá y cual es la importancia de cada uno, te agradecería mucho tu respuesta o algún link de apoyo donde encontrar esta información.
    Felicitaciones por el block,

    Me gusta

    • Estimada Francisca,

      Muchas gracias por escribir a Stats SOS. En general, con respecto a los supuestos de la regresión hay varias vías.
      1) Puedes ignorar los supuestos y asumir que se cumplen.
      2) Puedes modelar o calcular alguno de estos supuestos no cumplidos. Por ejemplo, modelar la heterocedasticidad (ausencia de Homocedasticidad).
      3) Puedes calcular un modelo más general utilizando el modelo lineal general que no es tan estricto en los supuestos.

      Sobre los 9 supuestos, creo que te estás refiriendo a una extensión de la regresión lineal múltiple y estás yendo más hacia lo que vendría a ser Path Analysis o incluso Ecuaciones estructurales (SEM).

      En estos casos, cuando se violan supuestos (por dar un ejemplo el de normalidad mutivariada) siempre se pueden utilizar estimadores con correcciones como el de Sattorra y Bentler que corrige por la ausencia de normalidad multivariada.

      Considero que un libro útil par ti podría ser el de Rex Kline de “Principles of structural equation modeling” o el libro de análisis multivariado de Jacque Tacq “From problem to analysis”.

      ¡Mucho éxito!

      Me gusta

  8. Lizzz dijo:

    Me arruinaste la vida con lo de Aditividad =(

    Me gusta

  9. Damian Ruiz dijo:

    Juan Carlos,

    Muchas gracias de nuevo por tener este tipo de post que aclaran de manera sencilla y entendible el mundo de la estadística, sin embargo tengo un problema con un estudio que estoy realizando, ocurre que estoy realizando una Regresion Logistica con muchas variables independientes y la colinealidad entre estas es muy alta, quisiera saber cómo disminuirla sin necesidad de quitar variables o hacer más observaciones?

    Muchas gracias por tu apoyo

    Me gusta

    • Damian Ruiz dijo:

      Juan Carlos,

      Otra pregunta que se me olvido hacer en el comentario anterior, ¿como sé cuando la colinealidad es muy alta en el SPSS?

      Me gusta

    • Estimado Damian,

      Muchas gracias por escribir a Stats SOS. Se sabe que hay multicolinealidad en las variables cuando los predictores están altamente correlacionados (por ejemplo una correlación que está por encima de .60).

      Honestamente, sobre tu problema, para evitar manipular las variables yo las dejaría así como están. Para eliminar la multicolinealidad tendrías que retirar la varianza compartida que hay entre ambas variables. Pero el tema es que conceptualmente probablemente tus predictores cambiarían si haces eso.

      ¡Mucho éxito!

      Me gusta

  10. Brenda dijo:

    Buen día Juan Carlos. ¿En una regresión lineal múltiple es posible introducir exclusivamente variables dicotómicas como variables independientes?… Muchísimas gracias por hacer de la estadística un tema “menos complejo”. Saludos

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s