¿Números muy fríos? ¡Presentemos gráficos!

Bienvenidos a otro maravilloso capítulo de Stats SOS. Este post será un poco diferente, en esa ocasión no vamos a hacer ningún calculo (ok, no se relajen mucho tampoco :)). Conversando con colegas, una idea que siempre aparece es que “los números pueden no comunicar mucho” o “los números en sí son muy fríos”. Lógicamente, estos comentarios me llevan a defender la situación debido a que yo sí considero que los números no son fríos y que obviamente traen un mensaje. De todos modos, acepto que el ser humano es bastante visual y que mostrarle una gráfica siempre puede ser amigable. Como anécdota les comento que Researchgate, la página que funciona como repositorio para colgar investigaciones comenta que las publicaciones que tienen gráficas tienen un porcentaje mucho mayor de visitas en comparación de los artículos que no tienen gráficas.

Por ello, hemos decidido mostrarles otra manera de presentar sus resultados. De este modo, el objetivo del post de hoy es describirles otras maneras de reportar sus análisis que pueden ser más amigables para el lector. En esta ocasión, les iremos poniendo ejemplos de análisis y el gráfico que podrían poner.

Comparación de medias (t student para muestras independientes)

En este caso, les presentamos las diferencias en actividad física entre hombres y mujeres. Las barras muestran los promedios y se puede ver claramente quiénes son hombres y mujeres. ¿Pero dónde está la significancia? ¡Muy sencillo! Ahora que ya pusieron los promedios, para reportar lo único que tendrían que hacer es poner el valor t, los grados de libertad y el nivel de significancia. De este modo, este simpático gráfico podrían acompañarlo con: t(12) = 8.45, p < .05. Con este dato, podrán ser precisos, porque muestran por qué la diferencia es significativa y claros, porque mostrarán un gráfico amigable que evidencia claramente que las mujeres practican menos actividad física que los hombres. Ya…¿Pero cómo hago esto? ¡Bueno! El SPSS tiene una opción arriba que dice “gráficos” y ahí podrán encontrar este gráfico de barras que les permitirá presentar sus resultados de esta manera. 

untitled2

Comparación de múltiples grupos con ANOVA 

Nuestro segundo ejemplo vendría a ser nuestro “temible ANOVA”. Para los que no recuerdan los análisis no hay problema, en cada título hay un enlace de cómo hacer el análisis y a qué se refiere. En esta ocasión, comparamos la calidad del sueño de jóvenes estudiantes de tres grupos distintos. Los que están entre quinto y sexto ciclo, séptimo y octavo ciclo y de noveno a doceavo ciclo. Para este ejemplo, no hemos usado la significancia estadística sino los intervalos de confianza. ¿Qué es lo importante aquí? Recuerden, los promedios no lo son todo, en este caso si el intervalo entre un grupo y otro grupo se traslapan quiere decir que no hay diferencias significativas entre los grupos. Como pueden ver aquí, en los tres grupos hay traslape por lo que se puede concluir que no existen diferencias significativas entre los tres grupos con respecto a la calidad del sueño. ¿Tienen compañeros escépticos que necesitan números? ¡No hay problema! Este gráfico podrían acompañarlo con varias cosas. El F del ANOVA, los grados de libertad, la significancia y los intervalos de confianza de cada grupo. ¿Y cómo es eso? Algo más o menos así: F(2,448) = 1.12, p = 0.21 y para los grupos: u1 = 25.285, IC 95% = 24.90 –  25.67 y así sucesivamente con los demás. ¡Ojo! Estos datos el programa se los da y no hay necesidad de calcularlos a mano (a menos que quieran :)). Nuevamente, al igual que el gráfico anterior, este se puede hacer con la opción de “gráficos” del SPSS. A ver estimados, qué es más fácil, ¿ver si es que los números se traslapan o ver claramente con las líneas si es que una se cruza con la otra?

untitled5

Correlación de Pearson

¡Muy bien! Cambiemos la comparación de promedios por grupos y entremos a la relación entre dos variables numéricas. En este ejemplo, queremos saber si existe una relación entre la calidad del sueño y el tiempo libre de los jóvenes. ¡Miren ese gráfico! ¡Hay una línea limpia y recta! ¡Genial! Parece que hay una relación bien simpática entre estas dos variables, donde a mayor calidad del sueño, mayor tiempo libre, la imagen es bien clara donde la línea está subiendo. Además, aquí el SPSS buenamente nos ayuda y nos pone la proporción de varianza compartida entre calidad del sueño y tiempo (si ven a la derecha sale R2 = .852). ¡Sí! ¡Pero eso no es una correlación! ¡Calma! ¡Respiren amigos lectores! Para obtener la correlación lo único que se tendría que hacer es sacarle la raíz cuadrada y saldría:  R = .92. Esto nuevamente demuestra una relación alta, pero más allá del número, los puntos azules también nos dan información interesante. Por ejemplo, ¿ven el punto de abajo a la izquierda, ahí se puede ver una persona que tiene muy mala calidad del sueño y muy poco tiempo libre. Aparte, un poco más arriba hacia el medio podemos ver que existe también un pequeño grupo de jóvenes que si bien tienen un mejor manejo del tiempo libre su calidad del sueño es muy mala. ¡Esto me dice algo mucho más que solo la mera correlación! Finalmente, ¿con qué acompañaría mi gráfico? Con el valor de R = .92 y la significancia (p < 0.001). 

untitled1

Regresión lineal múltiple

¡Finalmente! ¡El último gráfico! En este caso, quiero agradecerle a mi buen amigo Oscar que en una charla bien bacan me motivó a escribir este post. Parafraseándolo, “es mucho más fácil entender los números con gráficos amigables”. ¿Qué diablos es este último gráfico? ¡Muy sencillo! ¡Es una regresión lineal múltiple! Pero… ¿qué representan los números de abajo y las barras? Los betas no estandarizados. ¿Cómo se interpretan estos betas?  Si bien esta información pueden encontrarla en el post de regresión líneal, ensayaré un par de interpretaciones para facilitar la lectura. La barra azul sale la palabra “hombres”, en este caso, los hombres tienen 10.20 puntos menos en la escala de síntomas de salud mental que las mujeres, mientras se controla por estrés y tiempo libre.  En otras palabras, los hombres reportan menos síntomas de salud mental que las mujeres. ¡Genial! Vamos a una segunda interpretación, la del estrés (barra naranja). Por cada punto extra en la escala de estrés existe un aumento de 15.30 en la escala de síntomas de salud mental mientras se controla por manejo del tiempo libre y sexo. En sencillo, tomando en cuenta el sexo y el manejo del tiempo libre, a mayor estrés las personas reportan más síntomas de salud mental. ¡Último detalle! Fíjense que los valores negativos van hacia el lado izquierdo mientras que los positivos hacia el lado derecho, esto nos ayuda a identificar con facilidad qué factores contribuyen a tener síntomas de salud mental y cuáles disminuyen estos síntomas.

 

untitled6

 

¡Muy bien! ¡Queridos amigos! Esto sería todo por hoy, espero que esta nueva aventura les haya agradado. Acepto que soy fanático de los números, pero la verdad que tener una representación gráfica de nuestros resultados siempre es más amigable. Aparte, nos permite captar más a nuestros lectores como a una audiencia que nos escucha. ¡Dato importante, los trabajos no son solo para nosotros sino también para que los demás nos escuchen y todos podamos intercambiar y compartir ideas! Recuerden que pueden seguirnos en la página de Facebook o Twitter y obviamente siempre pueden dejar un genial comentario en el blog. ¡Nos vemos!

Publicado en Uncategorized | Etiquetado , , , , | Deja un comentario

Cómo decir lo mismo de muchas maneras: interpretaciones de la Regresión Logística

Estimados todos, bienvenidos a otro maravilloso capítulo de Stats SOS. En este caso, seguiremos surcando los caminos de la regresión logística, pero en este caso, nos enfocaremos más en la interpretación. Como vimos en el post anterior, a veces la regresión logística puede ser algo complicada de interpretar. Por ello, es que les traigo esta pequeña aventura que nos describirá brevemente las diversas maneras de interpretar el mismo  resultado.

En ese caso, el objetivo de hoy es describir diversas formas de interpretar los resultados de una regresión logística. ¡Muy bien! ¡Aquí vamos! Bueno, como ustedes bien saben, en el post pasado sobre regresiones logísticas, analizamos cuál era la probabilidad que una persona consumiera alcohol en el último mes tomando en cuenta el sexo y si la persona había fumado cigarrillos o no en el último mes. Luego de analizar los resultados obtuvimos múltiples tablas pero para efectos de este ejemplo sólo analizaremos las que tienen resultados concretos.

¡Excelente! ¡Sigamos adelante! El primer resultado que obtuvimos fue el siguiente:

untitlednulo

En este caso, en el post anterior realizamos al siguiente interpretación: “en promedio, existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho”. Pero…¿que pasaría si yo quisiera decir esto por cantidad de personas? ¿Lo podría decir usando porcentajes? ¿Quizás podría usar probabilidades? ¡Claro que sí! Es posible analizar el mismo dato utilizando todas las formas: así les haré un pequeño listado de cómo se interpretaría si utilizara todo lo mencionado previamente:

Por cantidad de personas: 

“En promedio, por cada 10 personas que no consumen alcohol en el último mes, 140 sí consume alcohol en el último mes”. ¿Difícil? ¡No hay problema vamos a porcentajes!

Utilizando porcentajes:

Primero tenemos que hacer el cálculo del porcentaje: 14.763 – 1 = 13.763*100

“En promedio, existe 1376% más posibilidad que una persona haya consumido alcohol en el último mes que no haya consumido” Asu…¡No! El porcentaje está demasiado difícil…mejor vamos a probabilidades.

Probabilidades: 

Para ello, antes tenemos que transformar los OR (recuerden los OR son Odds ratio y en la tabla están expresados como “EXP(B)”). Por eso, debo hacer el siguiente cálculo:

Probabilidad = 14.763 / 1+ 14.763 = 93%

¡Genial! La interpretación de esto sería la siguiente:

“En promedio, existe una probabilidad de 93% que una persona haya consumido alcohol en el último mes a que no lo haya hecho”.

¿Hasta ahí todo bien? ¡Muy bien! Sigamos adelante, ahora pasemos a interpretar ya no el promedio general de consumo de alcohol en el último mes sino las diferencias entre sexo. Aquí les pongo el cuadro con el que nos aventuramos previamente: Recuerden, en este caso el grupo de referencias son los hombres, entonces el valor de la tabla es el que se le asignan a las mujeres. 

untitledf

Por cantidad de personas: 

“En promedio, por cada 100 hombres que han consumido alcohol en el último mes, 96 mujeres han consumido alcohol en el mismo mes”.

Utilizando porcentajes:

Primero tenemos que hacer el cálculo del porcentaje: 1-.965 = 0.035*100 = 3.5%.

“En promedio, existe 3.5% menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes”.

Probabilidades: 

Nuevamente, al igual que la oportunidad pasada, debemos hacer el cálculo:

Probabilidad = .965/1 + .965 = 49%.

¡Perfecto! ¡Ahora que tenemos la probabilidad viene la interpretación!

“En promedio, existe 49% de probabilidad que una mujer haya consumido alcohol en el últimos mes en comparación de un hombre”.

Bueno queridos amigos de la vida, eso sería todo por hoy. Como ven, existen múltiples maneras de interpretar una regresión logística, la idea acá no es confundirlos sino al contrario, darles múltiples herramientas para que ustedes puedan interpretar como mejor les parezca y sea más comprensible, este análisis. Recuerden de poner like en Facebook seguirnos en Twitter, seguirnos acá en el blog del estadística y obviamente dejar sus maravillosos comentarios. ¡Qué les vaya excelente!

Publicado en Regresiones, Uncategorized | Deja un comentario

Nuestra logística es la regresión logística

Bienvenidos todos a otro maravilloso capítulo de Stats SOS. Yo se que me he demorado un tiempo en volver a escribir un post así que por favor les pido que no me lancen nada quejándose. 🙂 Bueno queridos amigos, la aventura de hoy es una que me han pedido ya por unos cuantos días y semanas. ¿Qué diablos pasa cuando quiero explicar con múltiples factores algo que solo se responde con sí y no?

¿Qué? ¿Cómo? A ver, con un pequeño ejemplo voy a ampliar mi idea para que no parezca chino mandarín. Imagínense que quieren saber qué factores se relacionan con la probabilidad de fumar cigarros. Entonces van caminando por la calle y preguntan, ¿fumas? En esos casos la persona suele responder “sí” o “no”, ¿cierto? Bueno, resulta que en estadística existe un genial análisis que se llama la regresión logística que nos ayuda a analizar nuestros resultados cuando tenemos ese tipo de respuestas. De este modo, la aventura de hoy es conocer ¿qué es la regresión logística y para qué rayos sirve?

Muy bien, dicho esto, abróchense los cinturones que aquí vamos. En esencia, la regresión logística es un análisis donde se quiere medir una variable dependiente que es dicotómico o politómica. ¿Qué es qué? Relajense un poco, una variable dicotómica tiene tan solo dos valores como por ejemplo, “sí” y “no” y politómica es una variable con varias categorías. Para efectos de no complicarnos la existencia, solo veremos acá un ejemplo de un análisis con una variable que tiene dos valores (dicotómica). Ya, ya, ya, mucho palabreo, pero, ¿qué más tiene una regresión logística? ¡Bueno! Este análisis puede tener también variables independientes o predictoras que son categóricas o continuas. Sin embargo, para este ejemplo general pondremos puras variables categóricas para facilitarnos la vida.

¡Ok! ¡Genial! Ahora vamos a un simpático ejemplo que nos aclare un poco todo este rollo. Antes que nada, no se asusten, relájense todo saldrá bien. Imagínense que tienen que hacer un trabajo de investigación y quieren saber cuál es la probabilidad de que un adolescente consuma o no alcohol en el último mes y qué factores hacen que esta probabilidad sea mayor. De este modo, realizan su encuesta y le preguntan a muchísimos temas a los adolescentes de la ciudad donde viven y algunos factores que ustedes consideran según investigaciones pasadas que podrían influir en que una persona consuma o no alcohol. Entre ellas, preguntan si el joven ha fumado alguna vez en la vida y el sexo. De esta manera, la hipótesis que tienen es que las personas que fuman cigarros y el sexo pueden ser factores que incrementan la probabilidad de consumir alcohol en el último mes.

¡Muy bien! Luego de ello, ingresan la data al SPSS y se sientan en la computadora…¿Y ahora? ¿Qué hago? Ok, lloran un poco, luego se reponen, se preparan un maravilloso café (sí, por si acaso yo soy un fanático del café, tomo dos al día y lo disfruto como si fuera un elixir de los dioses), y, ¡para adelante con el análisis!

Perfecto, para realizar los análisis los acompaño en su empresa así que ¡a continuar con nuestra travesía! Y para ello, debemos seguir la siguiente ruta:

Analizar/Regresión/Regresión logística binaria/

En la variable independiente ponemos el sexo y si fuma o no cigarros y en la variable dependiente si consume alcohol o no. ¡Genial! Ingresamos las variables ¡y listo! Aceptar. 

untitlednulo

Este primer cuadro lo que me dice es en promedio cuál es la probabilidad que una persona haya consumido o no alcohol alguna vez en el último mes. En este caso, para facilitar la interpretación utilizaremos el Exp(B) que en términos técnicos se llama OR (Odds ratio en inglés, o razón de odds o razón de momios, las tres son lo mismo). ¿Cuál sería la interpretación de esta tabla? ¡Muy sencillo! Es en promedio la posibilidad (ya no probabilidad porque estamos hablando de OR) de haber consumido un trago o no alguna vez en el último mes. Para este ejemplo, el valor es 14.763, lo cual implica que en promedio existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho. Nota sumamente importante: esta interpretación no toma en cuenta ninguna de las dos variables que incluimos en la regresión logística, esto tan solo es la posibilidad en promedio de toda la muestra de consumir o no alcohol. ¡Genial, sigamos avanzando!

untitledr2

Este segundo cuadro nos muestra cuán bien el sexo y la ocurrencia de fumar (las variables independientes que comentamos antes) explican nuestro modelo. Esa “cosa extraña” que se ve un poco tenebrosa que dice “-2 log de la verosimilitud” lo único que dice es cuánta varianza no explicada  hay en nuestro modelo cuando ingresamos las dos variables previamente mencionadas. Nada más y nada menos. ¿Cuál es el mensaje para la casa? ¡Muy sencillo queridos amigos aventureros de la vida! Este número compara un modelo con ninguna variable contra nuestro modelo con dos variables, mientras más pequeño es el número quiere decir que hay menos varianza no explicada y por ende nuestro modelo explica más. 

Por otro lado, tanto el R cuadrado de Cox y Snell y el de Nagelkerke, dicen cuánta varianza explica nuestro modelo. De este modo, es muy parecida a la R cuadrado de la regresión lineal múltiple (para los que no se acuerdan aquí la referencia). Los números son distintos porque los cálculos son diferentes, si tuviera que escoger uno utilizaría el segundo que me dice que el sexo y el fumar o no cigarros explica el 35% de la varianza de el consumo de alcohol o no en el último mes. ¡Genial! ¡Ahora el último round!

untitledf

Como ven, en este caso salió que el fumar no muestra un incremento o reducción en la posibilidad de consumir alcohol (la significancia es de .992, cuando debe ser menor a 0.05). Por otro lado, el sexo sí muestra un efecto significativo en la posibilidad de consumir alcohol en el último mes. En este caso, la categoría que se puso como referencia para comparar son hombres contra mujeres y en la tabla ese valor equivale a las mujeres (para más información sobre categorías de referencia encantado que dejen un maravilloso mensaje y con gusto discutimos sobre ello). De este modo, la interpretación vendría a ser que existe una posibilidad de .965 veces que una mujer consuma alcohol en comparación de un hombre. Sin embargo, esto suena medio confuso entonces puedo hacer un pequeño truco. Si nosotros dividimos 1/.965 = 1.03, obtenemos un número mucho más fácil de interpretar que se describiría de la siguiente manera. Existe, en promedio 1.03 veces menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes. Nota útil, cuando el valor del OR es menor a 1 es más fácil utilizar esta interpretación pero cuando es mayor a 1, interpretar directamente se vuelve más sencillo. De todas maneras, el OR tiene múltiples maneras de ser interpretado, para facilitarnos la vida, haré un post aparte en el cual proponga todas las diferentes interpretaciones que se puedan hacer.

¡Muy bien! Como ven, logramos sobrevivir a este terrible batalla, pero genial aventura. Ahora podemos ir a nuestras casas victoriosos y felices. En el siguiente post, mencionaré las diferentes interpretaciones que se pueden hacer con la regresión logística. ¡Recuerden! Siganos, en Facebook  o sino en Twitter o también dejen sus comentarios aquí en la página del blog. ¡Mucho éxito y nos vemos pronto! 🙂

 

 

 

 

Publicado en Regresiones, Uncategorized | Etiquetado , , | 6 comentarios

Orden y relación: la correlación de Spearman

Estimados todos, como siempre bienvenidos a una a maravillosa aventura de Stats SOS. En la aventura de hoy, nos iremos en avanzada como dicen y estiraremos un análisis que ya hemos trabajado. Como ustedes, mis jóvenes y valientes lectores ya hemos surcado por las tierras de la correlación de pearson. Ahora, digamos que pasaremos por su prima, la correlación de Spearman.

En ese caso, el objetivo de hoy es describir y comprender, qué demonios es la correlación de Spearman. Sin mucho rodeo, ni tanto vuelo, ¡Aquí vamos! La correlación de Spearman es un análisis de relación entre dos variables que son ordinales. Pero, pero, pero…¿¡qué diablos es un variable ordinal!? Muy sencillo, es una variable que tiene orden y jerarquía y no es continua. Los que quieren mayor información sobre ella, siempre pueden volver en el tiempo y aterrizar acá.

¡Fantástico! Ya tenemos la primera parte del asunto, ahora vamos a lo otro. La correlación de Spearman tiene como objetivo observar en variables ordinales cuán monotónica es la relación entre estas dos variables.  Mono…¿qué? Pero si los únicos monos son los que hay en la selva…¡Maldición! calma, calma, respiren, ¿Ya, están más tranquil@s? ¡Genial sigamos! Una relación monotónica es cuando dos variables están en forma de “S”, para que no suena a una lengua oscura, con magia negra y maldad veamos un ejemplo  gráfico:

 

figure3

 

En este caso, al igual que la correlación de Pearson, la correlación de Spearman puede tener variables entre -1 y 1. La figura (a) muestra dos tipos de relación  o líneas, una roja y una azul. La línea azul que es curvilínea es una relación monotónica positiva. En cambio, la línea roja es a clásica forma de una correlación de pearson positiva. Por otro lado, la figura b) muestra dos línea, la línea azul es una relación monotónica negativa entre dos variables, en cambio la línea roja es una clásica relación lineal de pearson negativa.

¿Hasta ahí todo bien? Estoy seguro que si. Ahora para no atorarnos vamos a un ejemplo :):

Imagínense que queremos ver la relación que existe entre la percepción de salud y la frecuencia en que hacen deporte un grupo de 600 jóvenes. Para ello, utilizamos un cuestionario donde preguntamos ¿Cómo consideras tu salud? y las opciones de respuesta son “mala”, “regular” y “buena”. Por otro lado, para preguntar la frecuencia en que los jóvenes hacen deporte utilizamos la siguiente pregunta: “¿Con qué frecuencia haces deporte? “Nunca”, “Algunas veces” y “Siempre”. ¡Perfecto! Ahora, podemos observar que ambas preguntas son variables ordinales dado que tienen un orden (por ejemplo para pasar de “nunca hago deporte” a “siempre hago deporte” tienes que pasar por “algunas veces hago deporte”, en otras palabras existe un orden de intensidad, esto mismo se puede decir sobre la percepción de salud.

¡Genial! Ahora que vimos esto, podemos decir que necesitamos una correlación de Spearman para encontrar la relación entre percepción de salud y frecuencia en que los jóvenes hacen deporte. 

Para ello, debemos seguir la siguiente ruta:

Analizar/correlaciones/bivariadas/

Aquí es importantísimo que hagamos dos cosas: 1) Introducimos percepción de salud y frecuencia para hacer deporte en la casilla de la mano derecha. Luego de ello, es necesario que veamos abajo donde nos van a salir casillas con nombres de análisis. Aquí, tendríamos que dejar en blanco la casilla que dice correlación de pearson y marcar la que dice correlación de spearman.  Luego de ello, lo único que tenemos que poner es el mítico “Aceptar”.

¡Genial! Luego de poner aceptar seguramente nos saldrá un cuadro más o menos así:

spearman

Este cuadro lo único que me dice es cuán relacionadas están la percepción de salud y la frecuencia en que los jóvenes hacen deporte. Aquí, tenemos buenas noticias, hay relación entre ambas variables. ¡Maravilloso! Pero, pero pero, ¿cómo me doy cuenta que hay relación? Muy sencillo, debo ver dos números:

  1. Cuando veo la significación (sig bilateral) puedo ver que es menor a 0.05 entonces la relación entre percepción de salud y frecuencia de practicar deporte en jóvenes es estadísticamente significativa. En otras palabras, hay relación entre las variables. Ahora…pero…¿cuán relacionadas están las variables? ¡Muy sencillo! Para ello debemos pasar al siguiente paso.
  2. En este caso, debo ver la casilla que dice “coeficiente de correlación” que me muestra que hay una relación positiva de .254 entre percepción de salud y frecuencia de práctica deportiva en jóvenes. Esto quiere decir, que a mayor percepción de salud, mayor es la frecuencia en que los jóvenes prácticas deporte. 

¡Bueno! ¿Cómo van? ¿Bien? ¿Muertos agotado, cabizbajos y meditabundos? ¡Seguramente que no, mis valientes lectores! Bueno ahora que sabemos los resultados, no hay más nada. Como ven la correlación de Spearman no es un análisis tétrico y complicado de realizar, todo lo contrario es sencillo y muy útil sobretodo si se tienen preguntas o variables que son ordinales. 

¡Muy bien! Eso sería todo por hoy, espero que lo hayan disfrutado de nuestra maravillosa aventura llena de relaciones y curvas en forma de S. Recuerden que siempre pueden dejar sus maravillosos comentarios y también pueden seguirnos en la página de Facebook de Stats SOS o también nos pueden seguir en Twitter en @StatsSOS. Para el próximo capítulo saltaremos nuevamente a relaciones lineales pero haremos algo un poco más complejo, de todos modos estoy seguro que será re fácil para ustedes. Igual los dejo con la curiosidad :).

¡Nos vemos y que estén muy bien!

 

Publicado en Uncategorized | Etiquetado , , | 9 comentarios

Nos comparamos siendo distintos: Comparación de correlaciones en grupos diferentes

Estimados todos, nuevamente bienvenidos a otro maravilloso capítulo de Stats SOS. Hemos surcado varios horizontes y conversado de muchos temas. Ahora, así como vimos anteriormente cómo comparar dos correlaciones en el mismo grupo, el objetivo de hoy es comparar dos correlaciones de grupos diferentes. 

Entonces, imaginemos nuevamente que sobró dinero de la última vez que ganamos la lotería y decidimos hacer otro estudio. En esta oportunidad nos provocó comparar y conocer la relación que existía entre autoestima saludable y autoeficacia general. Sin embargo, en esta oportunidad conversamos con unos amigos y nos dijeron que habían leído en varios artículos científicos que podría ser que esta relación es distinta entre hombres y mujeres. Dado que ustedes son muy perspicaces y fantásticos investigadores decidieron probar esa diferencia.

¿Hasta ahí todo bien? ¡Excelente! Sigamos adelante y no se asusten. Luego de correr nuestros análisis nos topamos con los siguientes resultados:

correlaciones

Luego de ver estos resultados nos topamos con dos temas interesantes: 1) en efecto hay una relación entre autoestima saludable y autoeficacia y esta es diferente entre hombres y mujeres. Al ojo, se puede decir que la relación entre ambas variables en hombres es mayor que en mujeres. Sin embargo, al ver esto recordamos que si solo nos basamos en “el ojo” podríamos terminar con un ojo morado. Por ello, decidimos hacer una prueba de significancia entre dos correlaciones con grupos distintos. Antes que nada, es vital recordar que para hacer este análisis las mismas variables tienen que ser medidas en ambos grupos. Luego de haber revisado esto, ¡vamos a lo nuestro y comparemos nuestras correlaciones!

Primer paso: Transformar a valor Z las dos correlaciones

r prima

Entonces, utilizando esta simpática fórmula que vemos acá tenemos que calcular un valor Z para cada una de las correlaciones. En este caso, el “loge” es el logaritmo y la “r” es la correlación que obtuvieron. Estimados, nos nos angustiemos con el logaritmo, en su calculadora, excel y SPSS pueden encontrar esa operación. ¡Muy bien, ya mucho preambulo! Después que nos angustiamos por cinco segundos por el logaritmo y todo el asunto hacemos el cálculo:

Z1Z2

 

 

Luego de haber hecho todo esto, hayamos que Z1= 1.70 y Z2= 1.69. ¡Fantástico ya pasamos el primer paso, ahora vamos al segundo round!

Segundo paso: Obtener un puntaje Z para obtener la significancia

z testSEZD

 

 

 

Para este paso necesitamos dos fórmulas y para que la vida se nos haga mucho más sencilla la dividiremos en dos partes. Primero calcularemos el error estándar de nuestras dos Z (SEZD) y luego obtendremos la Z final. Pero antes que nada, respiremos y sigamos adelante y de a pocos. De esta manera, hicimos el siguiente cálculo:

SEZD_calculado

Luego, de utilizar el Excel, calculadora o ábaco encontramos el siguiente valor: SEzd: 0.0088. ¡Perfecto! ya casi estamos, ahora lo que tenemos que hacer es resolver la segunda parte del paso dos. Calculemos el puntaje Z :). 

z final

¡Ya casi llegamos a la recta final! ¡Respiremos un poco más, el último esfuerzo! Utilizando nuestro ábaco para resolver esta operación nos encontramos con lo siguiente: Z = 1.38. 

Tercer y último paso: Comprobar la significancia

En este caso, se puede ver que el Z = 1.38 que es menor a 1.96 que vendría a ser el grado de significancia con una distribución Z al 95%. En este caso, si el valor de la Z de nuestro cálculo es mayor a 1.96 entonces sí hay una diferencia significativa entre las correlaciones. Las tablas de significancias siempre las pueden encontrar aquí. Pero dado que en este caso no es así, no hay una diferencia significativa entre las correlaciones.

¡Muy bien! ¡Y así logramos hacer una comparación entre dos correlaciones con grupos diferentes! Espero que les haya gustado la aventura de hoy y estoy seguro que será sumamente útil para todos nosotros. Recuerden seguirnos en la página de Facebook de Stats SOS, así como también en Twitter @statsos. Para la próxima aventura veremos la correlación de Spearman donde veremos correlaciones con  variables que son ordinales. ¡Mucho éxito para todos! 🙂

 

 

 

Publicado en Uncategorized | Etiquetado , , | 15 comentarios

Cuando dos relaciones se comparan: la comparación de correlaciones

Estimados todos, bienvenidos a otra aventura de Stats SOS. Espero que estén muy bien. En el capítulo de hoy veremos cómo comparar dos correlaciones. Los que no recuerdan qué es una correlación siempre pueden ir a este post, así que todo bien :). En esencia, una correlación de pearson es cuando se relacionan dos variables que son de intervalo. Pero más allá de eso, a veces (y más de una vez) quizás nos entre la curiosidad de saber cuán diferentes son dos correlaciones.

¡No se preocupen! ¡Hoy lo veremos! En ese caso, el objetivo de este post es describir y explicar cómo comparar correlaciones con la misma muestra. 

Primero, lo primero, así suene obvio de lo más obvio del mundo es importante tener en cuenta que en las dos correlaciones que se va a comparar siempre se tiene que tener una variable en común. 

¿Suena raro o como algún tipo de lengua oscura y confusa? ¡No hay problema! Vamos a un ejemplo: imagínense que quieren conocer sobre cómo se relacionan la auto eficacia y la autoestima. En ese caso, juegan la lotería y se ganan millones dólares. Luego de recibir el premio se dan cuenta que pueden hacer una investigación a nivel nacional. En ese caso, obtienen una muestra de más de 50000 personas. A todas estas personas le toman una prueba de autoestima que se divide en autoestima saludable y no saludable. Además, deciden también preguntarles a los participantes sobre su autoeficacia. Luego de ello, digitan todos los datos en el SPSS y ahí mismo abren Stats SOS y buscan la manera de hacer una correlación y encuentran este post :). Después de ello, corren sus datos estadísticos y se encuentran con los siguientes resultados:

Sin título

Luego de los resultados, se entristecen un poco porque la correlación de autoestima no saludable y autoeficacia es casi nula (-0.015). ¡Sin embargo, se percatan un tema interesante! autoestima saludable y no saludable están relacionadas entre sí y de manera inversa (-.210). Pero aparte, ven que autoeficacia también se relaciona con autoestima saludable de manera directa o positiva (.430) e incluso más que la autoestima no saludable. Dicha situación los intriga muchisimo, ¿Por qué diablos  ocurre esto? ¿Habrá una gran diferencia entre ambas correlaciones?

¡Bueno! ¡Ahora lo averiguaremos! Mis queridos lectores, relájense y no se asusten que aquí viene lo bueno :). La formula que tenemos que usar en este caso es la siguiente:

hotelling-t test.jpg

¡Dios me ampare! Que terrorífico se ve esto…Relájense. Todo bien y respiren. Aquí con ustedes aparece la prueba T de Hotelling. (mmm amigo lector es esa fórmula que hay arriba :)). ¿Cómo usamos esa fórmula? ¡Muy sencillo!

Primero que todo debemos identificar cada término de la fórmula (recuerden toda la información está en la tabla que está arriba ya lo verán :):

N = 51931

r12 = -.210 (correlación de autoestima saludable con autoestima no saludable)

r13 = .430 (correlación de autoestima saludable con autoeficacia)

r23 = -0.015 (corelación de autoestima no saludable con autoeficacia)

¡Listo! ¡Muy bien! ¡Sigamos! Luego, lo único que tengo que hacer es reemplazar la fórmula (no se asusten :)). Algo así:

ecuacion

Ok, esto se ve medio largo e impresionante pero tómenlo con calma. Si se hace parte por parte sale con tranquilidad. La respuesta en este caso es: -115.50. Si vemos en una distribución “t” (porque estamos calculando una t) para 51931 – 3  = 51928 grados de libertad, se puede decir que definitivamente hay una diferencia entre ambas correlaciones. Con respecto a la tabla los valores de la distribución t los pueden encontrar en este enlace. Para evitar una discusión larga créanme con  esto.

¡Excelente! ¡Eso sería todo por hoy! ¿Están bien? No se angustian todo va a salir bien :). Para el siguiente episodio veremos la segunda parte de comparación de correlaciones. Calmen estimados amigos, la idea es que no los maree con post gigantescos que los puedan angustiar más que ayudar.

¡Qué les vaya muy bien! ¡Mucho éxito queridos lectores! Recuerden de seguirnos en Twitter en @StatsSOS, en la página de facebook y por supuesto recuerden en dejar sus comentarios por acá siempre son bienvenidos :).

 

Publicado en Básico 1.0, Uncategorized | Etiquetado , , , | 12 comentarios

¡Empate técnico! El error de estimación

¡Estimados todos! Bienvenidos a otra aventura de Stats SOS. En el capítulo de hoy veremos temas relacionados a errores de estimación y empates técnicos. ¿Por qué esto es tan relevante? Por lo general en elecciones municipales y presidenciales las encuestadoras suelen hacer encuestas de intención de voto con una muestra para luego extrapolarlo a la población. Sin embargo, muchas veces suele ocurrir que estas encuestadoras no son tan certeras y un candidato obtiene más o menos votos de lo que la encuestadora dice.

Aparte, muchas veces ocurre que las encuestadoras mencionan que hay empate técnico entre candidatos.  Todo esto, por lo general ocurre por algo llamada error de estimación. Entonces, la aventura de hoy es justamente eso, ver qué diablos es el error de estimación. ¿Para qué nos sirve esto jóvenes lectores? No solo para que sepan que todos los cálculos que hagan donde quieren extrapolar de una muestra  a una población están sujetos a un error de estimación, sino también para que cuando escuchen en las noticias que dos candidatos están empatados, no piensen que les venden gato por liebre y sepan muy bien qué está pasando :).

¡Muy bien! Después del preámbulo, ¡vamos a lo nuestro!

Entonces, en términos sencillos el error de estimación es la distancia que existe entre los resultados obtenidos de calcular un valor con nuestra muestra y los resultados que se obtendrían cuando se calcula un valor con toda la población. Entonces, el valor real puede ser cualquiera dentro de los límites del error estándar. En otras palabras, el valor + el error estándar y por otro lado el valor obtenido – el error estándar. ¿Están asustados o traumados? ¡Estoy seguro que no! Entonces, ¡sigamos adelante!

Vamos un escalón más arriba. La fórmula del error de estimación para cuando se utilizan promedios es la siguiente:

standard-error-formula

¿Esto se ve horrible? ¡Para nada! Ustedes en realidad conocen esos términos. La “S” vendría a ser la desviación estándar y la “n” el tamaño de muestra. Como siempre les dejo estos enlaces en los términos para los que quieran refrescar su memoria. 🙂 ¡Así que no se preocupen! ¡Todo está por acá :)!

En este caso, cuando la muestra (“n”) es bastante grande el error suele ser más pequeño. Recuerden, esto se da debido a que mientras más muestra obtengas más te acercas a la misma cantidad de personas de toda la población.  A su vez, cuando la desviación estándar es pequeña el error de estimación también se suele reducir. Esto se da debido a que las respuestas de los participantes son más parecidas (u homogeneas entre sí). Por ende, no varían mucho, recuerden que la desviación estándar mide también cuánto varían los puntajes de los participántes. 🙂

Esta fórmula me va a ser muy útil para calcular diferencias entre promedios, en este caso no ahondaremos tanto con esta fórmula sino más bien con la que está relacionada a proporciones que es la que nos ayudará a poner un ejemplo sobre las encuestas. Esta primera fórmula más que todo fue el calentamiento. Otra nota importante que les dejo acá es lo siguiente:

Anteriormente se presentó la siguiente frase “En otras palabras, el valor + el error estándar y por otro lado el valor obtenido – el error estándar”. En términos técnicos esto significa que el valor calculado de la muestra puede ir entre el promedio + el error estándar y el promedio  – el error estándar (u + SEu y u – SEu). 

Ok, este se ve sumamente bonito y todo pero ¿Cómo funcionan las encuestas? Para las encuestas se utiliza otra fórmula que es el cálculo de proporciones.

En este caso, se cambia la fórmula y se trabaja con esta de acá.

images

¡No se angustien! Ahora les comento qué significa. “p” significa una proporción y “1-p” es su proporción complementaria. Como ustedes muy bien saben, “n” es el tamaño de la muestra.

¿Muy rayado? Vamos a un ejemplo que nos dará calma. Imagínense que un familiar(su tía) suyo les dice que está participando en las elecciones para ser presidenta de la junta de su edificio. En este edificio viven 200 personas que son posibles votantes. A una semana de las elecciones su tía quiere saber si es que podría ganar estas elecciones. Entonces, ella se enteró que ustedes son muy hábiles para calcular este tipo situaciones. Entonces, los contrata para que hagan un pequeño estudio en su edificio. Luego de este pedido, ustedes encuestan a 126 personas del edificio (una muestra) y se encuentran que su tía tiene más o menos una intención de voto de 49% y su competidor de 48%. Sin embargo, también observaron que su error de estimación es equivalente a 2%. Esto quiere decir, que los valores del competidor pueden ser 48% – 2% = 46% o 48% + 2% = 50%. Sus cálculos les dicen que el valor del competidor puede ir de 46% hasta 50%. A su vez, su tía puede tener valores entre 49% – 2% = 47% o 49% + 2% = 51%. En otras palabras, la intención de voto de su familiar puede variar entre 47% – 51%. 

¿Qué significa esto? ¡Que hay empate técnico! ¿Por qué ocurre esto? ¡Muy sencillo mis jóvenes lectores! Porque el competidor puede tener en realidad 49% y su tía puede tener 48% porque ambos valores están dentro del rango. Por otro lado, otro resultado podría ser al revés, que su tía obtenga 49% de los votos y su competidor 48% de los votos. En términos técnicos es posible que los valores entre los competidores se traslapen.

¡Entonces hay un empate técnico! ¡Chan chan chan! En cambio si su tía hubiera obtenido 70% y su competidor 30% entonces los valores de su familiar con el mismo error de estimación planteado anteriormente irían entre 68% y 72% mientras que su competidor tendría 28% hasta 32%. Por ende, los valores de ambos jamás se traslapan y ahí hay claramente un ganador.

¡Muy bien! ¡Esto sería todo por hoy! ¡Ojalá hayan sobrevivido a esto! Estoy seguro que sí, jóvenes lectores porque ustedes son inteligentes y dedicados. Recuerden en seguirnos en la página del blog y también en twitter en @statssos. Aparte, pueden ir siempre ha la página de facebook de Stats SOS.

Como siempre, sería fantástico recibir sus comentarios y preguntas sobre este post. Este blog es para ustedes y ustedes son los le dan vida a este espacio. 🙂 ¡Que les vaya muy bien!

 

 

Publicado en Básico 1.0, Uncategorized | Etiquetado , | 2 comentarios