Nuestra logística es la regresión logística

Bienvenidos todos a otro maravilloso capítulo de Stats SOS. Yo se que me he demorado un tiempo en volver a escribir un post así que por favor les pido que no me lancen nada quejándose. 🙂 Bueno queridos amigos, la aventura de hoy es una que me han pedido ya por unos cuantos días y semanas. ¿Qué diablos pasa cuando quiero explicar con múltiples factores algo que solo se responde con sí y no?

¿Qué? ¿Cómo? A ver, con un pequeño ejemplo voy a ampliar mi idea para que no parezca chino mandarín. Imagínense que quieren saber qué factores se relacionan con la probabilidad de fumar cigarros. Entonces van caminando por la calle y preguntan, ¿fumas? En esos casos la persona suele responder “sí” o “no”, ¿cierto? Bueno, resulta que en estadística existe un genial análisis que se llama la regresión logística que nos ayuda a analizar nuestros resultados cuando tenemos ese tipo de respuestas. De este modo, la aventura de hoy es conocer ¿qué es la regresión logística y para qué rayos sirve?

Muy bien, dicho esto, abróchense los cinturones que aquí vamos. En esencia, la regresión logística es un análisis donde se quiere medir una variable dependiente que es dicotómico o politómica. ¿Qué es qué? Relajense un poco, una variable dicotómica tiene tan solo dos valores como por ejemplo, “sí” y “no” y politómica es una variable con varias categorías. Para efectos de no complicarnos la existencia, solo veremos acá un ejemplo de un análisis con una variable que tiene dos valores (dicotómica). Ya, ya, ya, mucho palabreo, pero, ¿qué más tiene una regresión logística? ¡Bueno! Este análisis puede tener también variables independientes o predictoras que son categóricas o continuas. Sin embargo, para este ejemplo general pondremos puras variables categóricas para facilitarnos la vida.

¡Ok! ¡Genial! Ahora vamos a un simpático ejemplo que nos aclare un poco todo este rollo. Antes que nada, no se asusten, relájense todo saldrá bien. Imagínense que tienen que hacer un trabajo de investigación y quieren saber cuál es la probabilidad de que un adolescente consuma o no alcohol en el último mes y qué factores hacen que esta probabilidad sea mayor. De este modo, realizan su encuesta y le preguntan a muchísimos temas a los adolescentes de la ciudad donde viven y algunos factores que ustedes consideran según investigaciones pasadas que podrían influir en que una persona consuma o no alcohol. Entre ellas, preguntan si el joven ha fumado alguna vez en la vida y el sexo. De esta manera, la hipótesis que tienen es que las personas que fuman cigarros y el sexo pueden ser factores que incrementan la probabilidad de consumir alcohol en el último mes.

¡Muy bien! Luego de ello, ingresan la data al SPSS y se sientan en la computadora…¿Y ahora? ¿Qué hago? Ok, lloran un poco, luego se reponen, se preparan un maravilloso café (sí, por si acaso yo soy un fanático del café, tomo dos al día y lo disfruto como si fuera un elixir de los dioses), y, ¡para adelante con el análisis!

Perfecto, para realizar los análisis los acompaño en su empresa así que ¡a continuar con nuestra travesía! Y para ello, debemos seguir la siguiente ruta:

Analizar/Regresión/Regresión logística binaria/

En la variable independiente ponemos el sexo y si fuma o no cigarros y en la variable dependiente si consume alcohol o no. ¡Genial! Ingresamos las variables ¡y listo! Aceptar. 

untitlednulo

Este primer cuadro lo que me dice es en promedio cuál es la probabilidad que una persona haya consumido o no alcohol alguna vez en el último mes. En este caso, para facilitar la interpretación utilizaremos el Exp(B) que en términos técnicos se llama OR (Odds ratio en inglés, o razón de odds o razón de momios, las tres son lo mismo). ¿Cuál sería la interpretación de esta tabla? ¡Muy sencillo! Es en promedio la posibilidad (ya no probabilidad porque estamos hablando de OR) de haber consumido un trago o no alguna vez en el último mes. Para este ejemplo, el valor es 14.763, lo cual implica que en promedio existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho. Nota sumamente importante: esta interpretación no toma en cuenta ninguna de las dos variables que incluimos en la regresión logística, esto tan solo es la posibilidad en promedio de toda la muestra de consumir o no alcohol. ¡Genial, sigamos avanzando!

untitledr2

Este segundo cuadro nos muestra cuán bien el sexo y la ocurrencia de fumar (las variables independientes que comentamos antes) explican nuestro modelo. Esa “cosa extraña” que se ve un poco tenebrosa que dice “-2 log de la verosimilitud” lo único que dice es cuánta varianza no explicada  hay en nuestro modelo cuando ingresamos las dos variables previamente mencionadas. Nada más y nada menos. ¿Cuál es el mensaje para la casa? ¡Muy sencillo queridos amigos aventureros de la vida! Este número compara un modelo con ninguna variable contra nuestro modelo con dos variables, mientras más pequeño es el número quiere decir que hay menos varianza no explicada y por ende nuestro modelo explica más. 

Por otro lado, tanto el R cuadrado de Cox y Snell y el de Nagelkerke, dicen cuánta varianza explica nuestro modelo. De este modo, es muy parecida a la R cuadrado de la regresión lineal múltiple (para los que no se acuerdan aquí la referencia). Los números son distintos porque los cálculos son diferentes, si tuviera que escoger uno utilizaría el segundo que me dice que el sexo y el fumar o no cigarros explica el 35% de la varianza de el consumo de alcohol o no en el último mes. ¡Genial! ¡Ahora el último round!

untitledf

Como ven, en este caso salió que el fumar no muestra un incremento o reducción en la posibilidad de consumir alcohol (la significancia es de .992, cuando debe ser menor a 0.05). Por otro lado, el sexo sí muestra un efecto significativo en la posibilidad de consumir alcohol en el último mes. En este caso, la categoría que se puso como referencia para comparar son hombres contra mujeres y en la tabla ese valor equivale a las mujeres (para más información sobre categorías de referencia encantado que dejen un maravilloso mensaje y con gusto discutimos sobre ello). De este modo, la interpretación vendría a ser que existe una posibilidad de .965 veces que una mujer consuma alcohol en comparación de un hombre. Sin embargo, esto suena medio confuso entonces puedo hacer un pequeño truco. Si nosotros dividimos 1/.965 = 1.03, obtenemos un número mucho más fácil de interpretar que se describiría de la siguiente manera. Existe, en promedio 1.03 veces menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes. Nota útil, cuando el valor del OR es menor a 1 es más fácil utilizar esta interpretación pero cuando es mayor a 1, interpretar directamente se vuelve más sencillo. De todas maneras, el OR tiene múltiples maneras de ser interpretado, para facilitarnos la vida, haré un post aparte en el cual proponga todas las diferentes interpretaciones que se puedan hacer.

¡Muy bien! Como ven, logramos sobrevivir a este terrible batalla, pero genial aventura. Ahora podemos ir a nuestras casas victoriosos y felices. En el siguiente post, mencionaré las diferentes interpretaciones que se pueden hacer con la regresión logística. ¡Recuerden! Siganos, en Facebook  o sino en Twitter o también dejen sus comentarios aquí en la página del blog. ¡Mucho éxito y nos vemos pronto! 🙂

 

 

 

 

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Regresiones, Uncategorized y etiquetada , , . Guarda el enlace permanente.

10 respuestas a Nuestra logística es la regresión logística

  1. mbenitesd dijo:

    Wow. Ya entramos en análisis más divertidos.

    Le gusta a 1 persona

  2. Pingback: Cómo decir lo mismo de muchas maneras: interpretaciones de la Regresión Logística | Stats SOS

  3. Violeta Gomez dijo:

    ¡Gracias por el dato!. Sin embargo, podrías explicar un poco más sobre las categorías de referencia? Se me complica entender “primero” y “último” y en qué circunstancias usarlo. Te agradezco tus aclaraciones!

    Me gusta

    • Estimada Violeta,

      Muchas gracias por escribir a Stats SOS. En este caso, cuando me refiero a “primero” en la categoría de referencia significa que el primer valor que le asignaste a tus categorías va a ser el que se compare contra las otras categorías mientras que el “último”, será la última categoría. Por ejemplo:
      Imagínate que quieres comparar nivel socio económico y tus categorías son: 1 = A, 2 = B y 3 = C. Si asignas que la primera es tu categoría de referencia, en este caso, se comparará el nivel socio económico A contra el B y el C. Si eliges a la última categoría como referencia el nivel socio económico C será comparada contra A y B. ¿Cómo se esto? Porque el SPSS asume que la primera categoría es el número menor (en este caso el “1” está asignado a la categoría “A”). En el caso de la última categoría, el programa asume que el “3” es la indicada dado que es el valor mayor será la última categoría.

      ¡Mucho éxito!

      Le gusta a 1 persona

  4. Daryl Edgardo Gonzalez Hernandez dijo:

    Juan Carlos, me queda una duda. En todo el proceso explicas la interpretación de los resultados, pero y el modelo? La idea de la regresión es que exista un modelo que a través de variables independientes explique la variable dependiente. En este caso serían VD: sexo y fumar y la VI: consumo de alcohol. Si ambas fueran significativas tendríasn que ir en un modelo.

    Eso es lo que necesito ahora, pero no lo encuentro por ningún lado. Me ayudas por favor?
    Saludos!

    Me gusta

    • Estimado Daryl,

      Muchas gracias por escribir a Stats SOS. Así es en este ejemplo el modelo sería así:
      ln(p/1-p)(consumo de alcohol) = B0 + (B1)Sexo + (B2)fumar + e

      Si ambas fueran significativas entonces se reporta la posibilidad de consumir alcohol según sexo mientras que se controla por el deseo de fumar. De este modo, las VI son: sexo y fumar y la VD: consumo de alcohol.

      ¡Mucho éxito!

      Me gusta

  5. adrianseg dijo:

    Estimado Juan Carlos, me gustaría realizar este análisis con mis datos pero me surge una duda importante, no sé si es el análisis que busco. Necesito saber cómo una variable dicotómica (contacto directo con inmigrantes sí o no) influye en los niveles de prejuicios de las personas (medidos con dos escalas). En SPSS Analizar/Regresión/Regresión logística binaria/ Dependiente, introduzco el contacto con inmigrantes y el las covariables los niveles de prejuicio. Estoy haciendo lo correcto? Puedo introducir como covariables otras sociodemográficas como el sexo, la ciudad de origen, la cultura…y en caso afirmativo como se interpretaría un resultado significativo de la covariable sexo? muchas gracias por adelantado.

    Me gusta

    • Estimado Adrian,

      Muchas gracias por escribir a Stats SOS. Todo lo que dices es correcto, puedes introducir las variables sociodemográficas ¿Cómo interpretarías la variable sexo?

      Ejemplo: si el OR para la variables sexo es 3 y la categoría de referencia es hombres y la que está en el modelo por ende es mujeres dirías algo como:
      “existe 3 veces más posibilidad que las mujeres tengan contacto con migrantes que los hombres mientras se controla por la ciudad de origen, la cultura, etc”.

      ¡Mucho éxito!

      Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s