Tablas de valores críticos para diferentes distribuciones

Estimados todos,

Este no es un post convencional. Aquí simplemente he decidido colgar las tablas de valores críticos de las diferentes distribuciones. Esto, nos podrá ayudarnos a evitar ir buscando por todo el internet por las mismas, en caso las necesitemos o se nos pierdan.

¡Espero les sirva!

¡Buenas vibras!

Tablas valores criticos

Anuncios
Publicado en Conceptos | Etiquetado | 2 comentarios

No es paramétrico, ¿Y ahora? ¡Cómo comparo! La U de Mann-Whitney

Estimados todos, ¿cómo les va? Saludos, muchos saludos para ustedes. Espero que estén muy bien. Nosotros aquí seguimos avanzando, escribiendo más posts, compartiendo y creciendo. ¿Y por qué no? ¡De eso se trata, de aprender y crecer! Espero que para este momento le hayan perdido el temor a este tema de la estadística y sus aventuras por acá estén siendo muy gratas.

Tal como me pidieron, por un momento me moveré del mundo lineal. En el post de hoy, ¿adivinen qué vamos a tratar? (Así es, el título tiene la clave y creo que ya pueden adivinar los objetivos del post :)). Aunque no lo crean, ya hemos visto algunas ideas sobre este análisis. Si volvemos en el tiempo al post de rangos promedio, verán que al final mencionamos la U de Mann Whitney. Esto se debe a que este análisis trabaja con rangos promedio. 

Dicho esto, vamos a lo nuestro. La U de Mann Whitney es un análisis no lineal, que trabaja con variables ordinales y lo que busca es contrastar dos grupos diferentes cuando los datos que queremos comparar son ordinales o con una distribución no normal. ¿Qué es esto? No se preocupen, si no recuerdan qué es una variable ordinal siempre pueden volver a ese post, si su curiosidad continúa pueden ir a este post para recordar qué es una distribución no normal.

En palabras coloquiales, la U de Mann Whitney, es la versión no lineal de la T-Student para muestras independientes (que es un análisis lineal). Los que no recuerdan qué es una T-Student siempre pueden ir a este post que les podría ser de mucha.

Entonces, recapitulando antes de ir a nuestro maravilloso ejemplo. La U de Mann Whitney tiene dos funciones importantes: a) Comparar datos ordinales de dos grupos distintos y para ello, comparamos los rangos promedio. b) En el momento que la distribución de los puntajes de alguno de nuestros grupos no es normal, utilizamos este análisis. Sin embargo, como ustedes bien saben, excelentes lectores, los puntajes son variables de intervalo (ver post), por ello, no se pueden usar l0s rangos promedio porque esos cálculos están diseñados para variables ordinales. ¡Entonces! ¿Qué hacemos? Contenemos las lágrimas y el susto, y en lugar de comparar los rangos promedios, comparamos las medianas. ¿Por qué las medianas? Muy sencillo, porque este estadístico es el punto céntrico en un grupo de puntajes y eso soluciona el problema que la distribución de los puntajes que tienen no sea normal. Los que no recuerden detalles sobre la mediana siempre pueden volver a este post. 

¡Muy bien! ¿Siguen acá? ¿Se asustaron? Estoy seguro que no. Mejor vamos a un ejemplo, para este caso solo pondré uno:  Una comparación de dos grupos con una variable de intervalo y que la distribución de sus puntajes es no normal. ¿Por qué? Porque este blog está dirigido ha profesionales de ciencias sociales. El uso de los rangos promedio  tiene un peso más matemático. Además, por motivos prácticos, es bien complicado interpretar un rango promedio. De todos modos, quería presentarlo porque es importante que sepamos que existe y tenerlo en cuenta para no cometer el error de usarlo cuando no se debe utilizar. 

Imagínense que tenemos curiosidad de conocer si existen diferencias en la percepción de ingreso mensual necesario para vivir (Variable A) entre hombres y mujeres (Variable B). Encuestamos a nuestros participantes peruanos, luego, ingresamos toda la data y…¿Qué hacemos? Primero, antes que nada debemos revisar si es que la distribución de nuestra (variable A) es no paramétrica. 

Para hacer esto tenemos que hacer dos pasos.

Paso 1: Separar nuestra variable entre hombres y mujeres.

Para ello, en SPSS debemos seguir a la siguiente ruta:

Datos/Dividir archivo/

Aquí debemos hacer click (pinchar) en la opción que dice “Comparar grupos” y luego ingresar en “Grupos basados en” la variable “Sexo” para comparar por sexo. Luego Aceptar. 

Paso 2: Revisar la asimetria y curtosis para ver si la distribución es no paramétrica o no. Los que no recuerdan qué eran estos estadísticos, siempre pueden ir a este post que les puede dar un excelente recordatorio. Recuerden que existen ciertos criterios. Si la asimetría es mayor a 3 y/o la curtosis es mayor a 8, esto quiere decir que la distribución es no normal. Para mayor información pueden ir a este post. (Kline, 1998; 2005).

Para revisar la asimetría y curtosis debemos seguir la siguiente ruta:

Analizar/Estadísticos descriptivos/Frecuencias/Estadísticos/

Aquí sería bueno solo marcar, Curtosis, Asimetría y Mediana (que la usaremos luego). Luego ponemos en “Variables” la percepción de ingreso mensual necesario para vivir (Variable A) y Aceptar.

Los resultados obtenidos fueron una asimetría de 6.163 y una curtosis de 92.039 para la distribución de puntajes de hombres y una asimetría de 4.53 y una curtosis de 53.92 para la distribución de puntajes de mujeres. Como ven esto es claramente mayor a los valores que comentamos antes entonces podemos decir que la distribución de puntajes es no parametríca. ¿Qué puntajes? Los de percepción de ingreso mensual necesario.

¡Que genial! Ahora tenemos que hacer la prueba de significancia y ver si hay diferencias por sexo en la percepción de ingreso mensual necesario.

Para ello debemos seguir dos pasos.

Paso 1: Sacar la división por sexo.

En este caso, debemos volver a esta ruta.

Datos/Dividir archivo/

Aquí es necesario presionar en la opción que dice. Analizar todos los casos no crear grupos. Luego, obviamente, Aceptar.

¡Perfecto!

Paso 2: Hacer la prueba de U de Mann Whitney.

Para ello, debemos seguir la siguiente ruta:

Analizar/Pruebas no paramétricas/Cuadros de diálogos antiguos/2 muestras independientes/

En este caso uso cuadros de diálogos antiguos porque me gusta ponerme “old school” :).

Luego, en lista de contrastar variables ponemos la que queremos medir. En este caso es la percepción de ingreso mensual necesario para vivir (Variable A), luego en variable de agrupación ponemos Sexo (Variable B). Aparte, podemos hacer click (pinchar) en opciones y poner descriptivos para tener los estadísticos descriptivos y Aceptar. 

Nota: Es importante que esté marcada la casilla que dice U de Mann Whitney, porque sino ¡estaremos haciendo otro análisis!

¡Genial! ¡Ahora a ver nuestras tablas!

Tabla 1

descriptivosUmann

Esta primera tabla básicamente lo que nos menciona son los estadísticos descriptivos de la prueba así como la cantidad de personas (la N). Los que no recuerdan qué era un estadísticos descriptivo siempre pueden ir a este post. Aquí no me detendré mucho, más bien pasaré velozmente hasta la tabla que más nos importa.

Tabla 2

Umannwhitneyrangos

En este tabla están los rangos promedios. Como ya les mencioné la U de Mann Whitney trabaja con Rangos promedios, pero son muy difíciles de interpretar. Aparte, cuando se comparan grupos con una variable que tiene una distribución no normal, se usa U de Mann Whitney pero se revisa la Mediana. Esta tabla solo la puse para que sepan cómo trabaja el SPSS, pero recuerden no reporten en sus informes los rangos promedios al comparar variables que tienen una distribución no paramétrica.

Tabla 3

significancia

¡Excelente! ¡Vamos a lo que nos interesa! Como ustedes pueden ver bien, aquí hay varios estadísticos. La U de Mann-Whitney, sale a raíz de una serie de cálculos utilizando los rangos promedios y la Z. Pero para términos prácticos, lo que más nos interesa es si hay diferencias entre sexo por percepción de ingreso mensual necesario para vivir. En ese caso, tenemos que ver la significación y percatarnos como siempre, si es menor a 0.05 o no. Si no recuerdan por qué usamos ese punto de corte, siempre pueden volver en el tiempo a este post que toca este tema con mayor profundidad.

¡Genial! Como vemos, la significación es mucho menor a 0.05 lo cual significa que sí existen diferencias entre percepción de ingreso mensual necesario para vivir por sexo. Pero ahora, la pregunta del millón, ¿Cuál es mayor?

¡Muy sencillo! ¿Recuerdan que calculamos la Mediana anteriormente? ¡Bueno! ¡Ahora, nos será de ayuda!

Para este caso, no pondré una tabla extra para no llenarnos de tablas. En este ejemplo, la mediana para hombres salió 1200 mientras que para mujeres 1000. Combinando estos datos con la tabla 3, podemos decir que existe una diferencia significativa en la percepción de ingreso mensual necesario para vivir entre hombres y mujeres. Donde los hombres, perciben que se necesita mayor dinero para vivir mensualmente que las mujeres.

Entiendo que este post, ha sido realmente bastante largo, pero espero que sigan acá, valientes lectores. Estos análisis no se suelen utilizar demasiado, pero de todos modos es bueno conocerlos y uno nunca sabe cuándo puede toparse con una situación que requiere utilizarlos. Para la siguiente aventura me gustaría sorprenderlos. Por ello, no les diré el análisis que haremos. Sino que me encantaría que ustedes mismos se sorprendan cuando aparezca.

Recuerden que siempre pueden comentar en la parte de comentarios y encantado de responderles.

¡Buenas vibras para todos!

Referencias

– Kline, R. B. (1998). Principles and practice of structural equation modeling. NY: Guilford Press.
– Kline, R.B. (2005), Principles and Practice of Structural Equation Modeling (2nd Edition ed.). New York: The Guilford Press.

Publicado en Básico 2.0 | Etiquetado , , , , , | 40 comentarios

Una línea que sigue y avanza: La regresión lineal simple

Estimados todos, ¿qué tal? Espero que todo esté yendo muy bien. Les comento que este es el comienzo, sí, ¿el comienzo de qué? El inicio de una aventura hacia uno de los análisis más usados en estadística. La regresión lineal. Antes que nada, les cuento que este es un previo, porque ese análisis que les cuento es la regresión lineal múltiple. Pero para llegar a ella, previamente tenemos que hacer la más simple de sus versiones.

En este, caso, no pondré cuál es el objetivo de este post al comienzo, los valientes lectores ya deben imaginar cuál debe ser el propósito de este capítulo de Stats SOS. Para este post, y a manera de comenzar un nuevo tema y hacer pequeños cambios pondré el objetivo al final.

La regresión lineal simple, como su nombre lo dice es un análisis lineal. ¿qué significa esto? Que busca encontrar si existe una relación entre una variable y otra. Ahora, los valientes lectores que conocen la correlación de pearson (pueden encontrarla aquí), me dirán que esto suena igual. Bueno, en cierta manera la regresión lineal simple y la correlación de pearson son análisis muy parecidos y son parte de una misma familia. La gran diferencia entre una y otra es que la correlación de Pearson busca la relación entre dos variables, mientras que la regresión busca ver cómo una variable explica a otra variable. Aparte, al igual que la correlación, la regresión lineal simple utiliza variables de intervalo y no puede utilizarse con otros tipos debido a que es un análisis lineal. Recuerden, valientes lectores, siempre pueden ir a post anteriores para revisar algo que no recuerden. Para este caso, este post  los puede ayudar a recordar qué es una variable de intervalo.

¿Está todo bien? ¿Suena raro y extraño? No hay ningún problema, no se angustien ni se preocupen. Vamos a un ejemplo, los maravillosos ejemplos siempre son excelentes para nuestro aprendizaje.

En nuestras labores cotidianas (ya sea estudiando algo o trabajando en algo), nos hemos percatado que tener un grupo de amigos o amables colegas en el trabajo nos permite relajarnos y a su vez hacer que el estrés descienda. Sin embargo, esta es una simple deducción y como investigadores, es importante que probemos científicamente si es que efectivamente esto se da en la realidad. Si lo haces al ojo, terminas con un ojo morado :).

Por ello, un grupo de investigadores deciden hacer una pequeña investigación. Para ella, recogen información de 270 jóvenes sobre estrés (variable A) y soporte social (variable B) y buscan conocer si es que el soporte social puede explicar el estrés. Para ello, miden las dos variables con dos cuestionario y sacan los promedios de puntajes de cada uno. En ese caso, tanto la variable A, así como la variable B son de intervalo. Recuerden, este post los puede ayudar para recodar qué es una variable de intervalo. 

¡Excelente! Luego de ingresar todos los datos, corremos los análisis. ¡Espera! ¿Cómo se corren los análisis? ¡Pues muy sencillo!

En este caso, con el SPSS se debe seguir la siguiente ruta:

Analizar/regresión/lineales/

Para este caso, como queremos saber si el soporte social puede explicar el estrés, ponemos como variable dependiente, estrés y en variable independiente soporte social. Luego de ello ponemos aceptar. ¡Aquí vamos!

¡Muy bien! Ahora que el SPSS proceso todos nuestros datos, esto ocurrió: ¿Están listos? ¿Preparados? Nos mostró tres tablas básicas. Para este post solo pondré las tablas básicas pero para siguientes publicaciones esto se irá poniendo más y más complejo. Pero con calma, estoy seguro que todo irá muy bien.

Tabla 1

regresion simple1

Esta tabla lo que nos muestra básicamente es cuán relacionadas están estas variables. En este caso, la tabla no pone la dirección (directa o inversa) de la relación entre soporte social y estrés. Lo único que hace es poner cuán relacionadas están las variables. Esto es muy similar a una correlación de Pearson, los que no recuerdan que es esto pueden ir a este post. 

¡Muy bien! En este caso, la R significa la relación entre soporte social y estrés, en este caso nos dice que hay una importante relación (.36) entre las dos variables. Los que no recuerdan qué era una relación entre dos variables, ¡no hay problema! este post puede ser de mucha utilidad. 

Por otro lado, la R cuadrado es como su nombre lo dice, la relación (R) elevada al cuadrado. El R cuadrado, es la proporción de varianza explicada de estrés por soporte social. En otras palabras, cuánto los puntajes de soporte social explican los puntajes de estrés. Por el momento, solo hablaremos de estos dos análisis, los que tienen curiosidad de saber qué es la R cuadrado corregida, siempre pueden dejar un comentario en la sección posterior y encantado de ayudar. De todos modos, cuando veamos regresión múltiple la R cuadrado corregida tomará bastante importancia.

Tabla 2

regresionsimple2

Esta tabla de ANOVA (¿les suena conocida? a los que no, este post puede ayudarlos a identificar rápidamente la misma). Nos menciona si es que nuestro modelo que busca explicar el estrés utilizando el soporte social es significativo o no. Mientras más grande sea la F hay más probabilidad que nuestro modelo sea significativo. ¿Por qué? Porque mientras más grande es la F hay menor probabilidad que la explicación de estrés por soporte social se de por el azar o algún motivo desconocido. En este caso, vemos que el modelo es significativo ya que es menor a .05. Los que no recuerdan qué significa esto, ¡no hay ningún problema! Este post los puede ayudar a recordar a qué se refiere una significación.

Tabla 3

regresionsimple3

Finalmente, esta tabla nos muestra nuestro modelo de regresión lineal simple pero al detalle. En este caso podemos ver dos lineas, de datos. La primera que se refiere a la constante y la segunda directamente al soporte social. En este caso, no hablaremos mucho de la constante, pero lo que si mencionaremos es que la constante se refiere a los valores que toma la variable que queremos explicar (en este caso estrés) cuando nuestra variable explicativa o predictiva (soporte social) es igual a 0. ¡Muy bien! Dicho esto, sigamos avanzando. Vamos a saltar la línea de la constante y nos iremos directamente a la línea que nos habla del soporte social. Los coeficientes no estandarizados, miden el cambio entre la variable independiente (soporte social) y la variable dependiente (estrés). ¿Qué dice este análisis? Para este caso, cada vez que se incrementa un punto en soporte social, el estrés baja en 1.928 (porque si ven la tabla 3, el número tiene un signo negativo).

Por otro lado, el coeficiente tipificado, nos menciona la misma información con una gran diferencia. El coeficiente tipificado mide el cambio o cuánto explica soporte social al estrés, con valores que van desde -1 a 1 (así como una correlación). Este coeficiente también es llamado coeficiente estandarizado, porque los puntajes se han estandarizado (o convertidos) para solo tener valores entre -1 y 1. ¿Por qué es útil esto? Cuando se tiene varias variables (regresión múltiple) se puede saber cuál de las variables de nuestro modelo explica mejor la variable que queremos explicar. Entiendo que ahora esto puede ser poco claro, pero cuando veamos regresiones múltiples verán que esto se vuelve mucho más claro ¡Se los prometo!

De todos modos, el coeficiente tipificado, tiene una particularidad bien interesante en la regresión lineal simple. Este valor, es idéntico al que obtendríamos si hiciéramos una correlación de Pearson entre Soporte social y estrés. Si no me creen, ¡no hay problema! Si ven a continuación (tabla 4), observarán un análisis de correlación de las dos variables que mencioné y verán que estrés y soporte social tienen una relación de -.36 que es exactamente igual al coeficiente tipificado de la tabla 3 en la línea de soporte social. 

¿Qué significa esto? Que hay una relación inversa (ver post de correlaciones), entre los puntajes de soporte social y los puntajes de estrés. En términos de regresión, el soporte social explica el estrés en .360 y ha mayor soporte social menor estrés. 

Finalmente, verán que estos valores son significativos porque son menores a 0.05 (en las tablas 3 y 4 aparecen valores de .000, en otras palabras, valores muy pequeños). Ello implica que está relación es significativa (ver post).

Tabla 4

regresionlineal4

¡Muy bien! Esto sería todo por hoy. El objetivo de este post fue describir de manera sencilla, ¿qué es una regresión simple?  Un tema importantísimo de tomar en cuenta, es que si bien hemos utilizado la palabra “explicar” para referirnos a la regresión, no es apropiado hablar de causalidad aquí. Es mejor, y más cauteloso hablar de relación en lugar de causalidad, pero por temas didácticos es que hemos usado la palabra explicar. Para lograr encontrar causalidad es necesario utilizar diferentes diseños de investigación como por ejemplo el experimental.

Para la siguiente aventura de Stats SOS, veremos los principios que se deben seguir para hacer una eficiente y precisa regresión lineal multiple. En el siguiente post verán que haré mención de un buen amigo y seguidor del blog que quería ser parte del blog y como él siempre me ha dado apoyo entonces le concedí el pedido. Dudo que mi novia se ponga celosa de ello, así que no hay problema :). Recuerden que siempre pueden dejar un maravilloso comentario en la parte de comentarios.

¡Espero que todos tengan una excelente semana y buenas vibras para todos!

Publicado en Regresiones | Etiquetado , | 30 comentarios

¿Qué rango tiene usted? Los rangos promedio

Estimados todos, bienvenidos a otro maravilloso capítulo de Stats SOS. En la aventura de hoy veremos un concepto que nos ayudará a introducir los análisis no lineales.

En el capítulo de hoy describiremos de manera sencilla los rangos promedio o mean ranks y mencionaremos en qué análisis se usan.

¿Están listos? Me imagino que sí, valientes lectores. ¡Muy bien! El rango promedio, es un promedio obtenido después de haber ordenado nuestros datos de menor a mayor. 

¿Suena raro? No se preocupen que un momento vamos a presentar un maravilloso ejemplo, pero antes es importante mencionar que los rangos promedio se utilizan cuando queremos comparar variables que son ordinales. ¿Recuerdan lo que era una variable ordinal? Si no se acuerdan, ¡no hay problema! Vayan a esto post que les ayudará a poder recordar este concepto. 

¡Excelente! Presentado esto, vamos a un ejemplo de cómo convertir un grupo de números a rangos promedio. Este ejemplo es sencillo y he intentado no utilizar muchas categorías para simplificar el tema.  Imagínense que estamos midiendo nivel educativo y tenemos 5 valores  (1 – primaria, 2 – secundaria, 3- universitario técnicos, 4 – estudios universitarios y 5 – posgrado).

Luego, vamos a un grupo de 10 personas y les preguntamos su nivel educativo. Luego de hacer las encuestas ingresamos la data a la computadora y obtenemos los siguientes valores:

3, 3, 3, 4, 4, 5, 1, 2, 2, 5. Que son los niveles educativos de las 10 personas encuestas. 

En otras palabras: tenemos 3 personas con estudios técnicos, 2 personas con estudios universitarios, 2 personas con estudio de posgrado, 2 personas con secundaria y una persona con primaria.

¡Muy bien! ¿Hasta ahí todo bien? Ahora vamos a la parte interesante. Cuando cualquier programa estadístico les muestre rangos  promedios, el paquete ha hecho la siguiente transformación:

Paso 1:

Niveles de instrucción

3

3

3

4

4

5

1

2

2

5

Números ordenados

5

5

5

7.5

7.5

9.5

1

2.5

2.5

9.5

Niveles ordenados

1

2

2

3

3

3

4

4

5

5

Rangos

1

2.5

2.5

5

5

5

7.5

7.5

9.5

9.5

Se preguntarán ¿qué diablos paso aquí?  Muy sencillo, lo que hemos hecho es ordenar los números. En general, los paquetes estadísticos para calcular los rangos promedios primero ordenan de menor a mayor. Sin embargo, cuando el número se repite, por ejemplo el SPSS, saca el promedio de las posiciones en que se encuentra ese valor. Pongamos dos ejemplos: el nivel “2″ se repite dos veces y el nivel “3” se repite tres veces. Entonces el SPSS hace los siguientes cálculos:

(2 + 3)/2 = 2.5

¿Cómo? El primer “2”, está en la segunda posición, el siguiente dos está en la tercera posición. Por eso, se suma 2 + 3, donde estos números representan la posición en que está las categorías o niveles. Luego, hay solo dos números dos en nuestra tabla entonces dividimos entre 2. De ahí sale (2 + 3)/2 = 2.5. 

¿Confuso? ¡No hay problema! ¡Vamos a otro ejemplo!

El número 3, tiene el rango 5, ¿Verdad? ¿Por qué creen que pasó esto? ¡Muy sencillo!

Contando de izquierda hacia la derecha, el primer “3”, está en la posición 4, el segundo “3” está en la posición 5 y finalmente el tercer “3” está en la posición 6.

En ese caso, debemos sumar (4 + 5 + 6) que representan las tres posiciones que están los “3” repetidos. Como hay tres repeticiones de la categoría “3” que viene a ser universitario técnico, entonces se divide entre 3. Por eso sale (4 + 5+ 6)/3 = 5. 

¿Siguen aquí? Me imagino que sí valientes lectores. Esto no es magia, sino un proceso, ya sabremos por qué es importante saber esto. Paciencia :).

Paso 2:

Luego de haber sacado los rangos, el último paso es sumar todos los rangos y dividirlos entre la cantidad de casos. Como tenemos 10 personas, dividimos entre 10. Entonces, hacemos la siguiente operación:

(1 + 2.5 + 2.5 + 5 + 5 + 5 +7.5 + 7.5 + 9.5 + 9.5)/ 10 = 5.5

Y este es nuestro Rango promedio.

¿Por qué diablos nos estamos tomando el trabajo de aprender esta cosa rara? ¡Muy sencillo, porque para todos los análisis que tienen que comparar variables ordinales, los paquetes estadísticos hacen este procedimiento. Entonces, es importante saber qué diablos está pasando. Análisis como la W de Wilcoxon o la U de Mann Whitney hacen este cálculo.

Es vital saber esto porque, cuando la distribución de nuestros puntajes es no normal (ver este post), tenemos que usar la W de Wilcoxon o la U de Mann Whitney y estos análisis por defecto botarán rangos promedios. Por ejemplo, si nosotros reportamos los rangos promedios de nuestros puntajes de autoestima entonces estaremos metiendo la pata y cometiendo un error grave. Será un error grave porque tratamos nuestros puntajes como categorías con un orden cuando en realidad no lo son. Los rangos promedios solo se usan cuando quieren comparar variables que son ordinales. 

¿Quedó un poco en el aire? No se preocupen y respiren, los análisis la W de Wilcoxon y la U de Mann Whitney los vamos a ver luego. En esos casos, vamos a poner un caso donde usaremos estos análisis cuando comparemos puntajes que tienen una distribución no normal y usaremos la mediana y otro caso cuando comparemos variables ordinales y usaremos los rangos promedio. 

¡Muy bien! ¡Creo que esto sería todo por hoy! Espero que estén muy bien valientes lectores, estoy seguro que sí, ustedes tienen mucho empeño y son muy inteligentes. Para el siguiente post sobre estos temas, veremos la U de Mann Whitney, y conoceremos de manera sencilla, cómo funciona y cuándo es que debemos usarlo.

Ya saben que siempre pueden dejar sus excelentes comentarios que serán muy bien recibidos. ¡Buenas vibras para todos!

Publicado en Conceptos | Etiquetado , , , , , , , | 3 comentarios

Cálculos manuales del ANOVA de dos vías

Estimados todos, bienvenidos nuevamente a Stats SOS. Este no es un post convencional, aquí solo les dejaré la forma de hacer un ANOVA de dos vías utilizando cálculos manuales (ANOVA dos vias).

Lo que están interesados en saber cómo se este análisis en el SPSS pueden ir a este post.

¡Buenas vibras!

Publicado en Uncategorized | Etiquetado , | Deja un comentario

Dos caminos, un destino: el ANOVA de dos vías

Estimados todos, bienvenidos a un nuevo capítulo de Stats SOS, espero que estén muy bien y que todo vaya maravilloso para ustedes.

Ya hemos avanzando bastante y cada vez la complejidad de los temas aumentan pero estoy seguro que ustedes están yendo muy bien. Tal como mencioné el post pasado, ahora vamos a ver una extensión del ANOVA, que es el ANOVA de dos vías o Two way ANOVA. Los que no recuerdan qué es el ANOVA simple no hay ningún problema, pueden ir a este post que los ayudará a refrescar su memoria. 

Entonces, el objetivo de la aventura de hoy es describir y explicar de manera sencilla, el ANOVA de dos vías. Pero antes de ello, brevemente me iré atrás en el tiempo y mencionaré algo sobre el ANOVA simple, ¿está bien?

Tal como ustedes my bien saben, el ANOVA es una prueba lineal, que lo que busca es relacionar una variable categórica que tiene más de tres grupos, con una variable de intervalo. Si no recuerdan a qué me refiero, este enlace les puede hacer el truco.

En el caso del ANOVA de dos vías, la idea ya no es relacionar solo una variable categórica con una variable de intervalo, sino dos variables categóricas con una de intervalo. Por eso, es que se llama de dos vías, porque ya no se desea relacionar una variable (categórica) con otra variable (intervalo), sino dos o más variables categóricas, con esta de intervalo. 

¿Suena a un idioma oscuro y malévolo? ¡No hay problema! Vamos a un ejemplo que seguro nos aclarará el panorama.

Imagínense que tenemos interés en conocer los niveles de estrés de un grupo de jóvenes y cómo estos niveles se relacionan con el sexo y la percepción de salud. Entonces, en este caso tenemos tres variables: a) Estrés que es medida con un cuestionario y tiene puntajes y por ende será nuestra variable de intervalo (variable a). b)  Sexo, que es una variable categórica que puede ser hombre o mujer (variable b). c) Percepción de salud, que es otra variable categórica que tiene cinco opciones. Mala, Regular, Buena, Muy buena y Excelente (variable c).

¡Muy bien! ¿Hasta ahí están conmigo? Espero que sí, así que sigamos. Luego que recogemos toda la información la ingresamos en el SPSS y estamos frente a la computadora, ¿y ahora, qué hago? ¡Muy sencillo! Primero se toman un delicioso café o una infusión para los que no son amantes del cafe y siguen esta ruta.

Analizar/Modelo general lineal/Univariante/

En este caso, la ruta se llama de esta manera porque el ANOVA de dos vías es un análisis lineal que solo usa una variable como resultado, que en nuestro ejemplo es estrés. 

¡Excelente! Luego de ello, les debe haber aparecido un menú. En este caso, tenemos que poner nuestra variable dependiente que sería la variable que queremos analizar. En ese caso, ponemos ahí la variable a, que es el nivel de estrés de los jóvenes. 

Luego, en el recuadro de factores fijos, tenemos que poner nuestras otras dos variables: Sexo (variable b) y Percepción de Salud (variable c). Estas variables se ponen en este recuadro porque son las que deseamos analizar directamente. Los que tienen curiosidad de conocer qué son los otros recuadros, siempre pueden dejar un maravilloso comentario y encantado de ayudarlos.

¿Hasta ahí? ¿Están acá? ¡Muy bien, sigamos! Luego de ello, es importante ir a gráficos y aquí tienen varias opciones, este menú les dice cómo es que quieren su gráfico. Para este ejemplo, lo que haremos es lo siguiente: en eje horizontal  pondremos la percepción de salud y en líneas separadas el sexo. Entonces, al final, nos aparecerá un gráfico con dos líneas, una de hombres y otra de mujeres. Además, en el eje horizontal (el eje echado) saldrán las cinco percepciones de salud (ver arriba). Finalmente, el eje vertical (el parado) les saldrán las medias promedio de estrés . 

Importante: Antes de salir del menú debemos apretar (o pinchar) en añadir para que lo que hemos escogido aparezca en el recuadro de abajo. Esto es importantísimo, porque sino el gráfico no saldrá. Luego debemos poner continuar.

Después de ello, tenemos que ir al botón de Post Hoc y ahí es importante poner los factores en el recuadro del costado que dice “pruebas post hoc para”. Además, es necesario poner un tick en el análisis que queremos. Para este caso, voy a poner Scheffe, porque es lo convencional, sin embargo existen otros análisis más precisos como Dunett y Tukey-B. Para saber más de esto pueden ir al capítulo de post hoc y a la parte de comentarios que les puede dar algunas ideas.  Un dato interesante, es que este análisis de post hoc, es igual al que ya hemos visto antes, entonces ya estamos en la etapa donde los análisis comienzan juntarse entre ellos. Luego de hacer click en todas estas opciones, ponemos continuar.

Finalmente, debemos ir a opciones. Ahí, es necesario pasar las variables del recuadro de “Factores e interacciones” al recuadro contiguo “Mostrar las medias para”. En este caso, tenemos que poner todas las variables menos la que dice “Overall” porque lo que nos interesa es analizar variable por variable. Entonces, queremos analizar, sexo (variable b) y percepción de salud (variable c) y la interacción entre ellas, que en este caso está representado como sexo*percepción general. Los que no recuerdan qué es una interacción pueden ir a este post, que los puede ayudar. ¡Así que no se preocupen! :).

Luego, sería importante también incluir estadísticos descriptivos y la prueba de homogeneidad de varianzas y poner continuar. Los que no recuerdan qué es un estadístico descriptivo, pueden ir a este post. Por otro lado, los que no recuerdan qué es una prueba de homogeneidad de varianzas, este post de la T-student les puede dar la respuesta.

¡Muy bien! Ahora sí, ¡veamos los resultados! Lamento que este post esté siendo un poco largo, pero a medida que se vuelva más complejo el análisis, lamentablemente serán más extensos los posts. En algunos casos intentaré separarlos en dos para aliviar el tema.

¡Importante! El SPSS les va a botar un montón de tablas, y muchas de ellas van a ser redundantes, para este post sólo voy a escoger las tablas que son de mayor utilidad.

Tabla 1

levene2wayanova

Esta primera tabla, mide exactamente lo mismo que ya hemos visto antes, ¿En dónde lo vimos? En la t-student para muestras independientes. Lo que mide esta tabla es si las varianzas son iguales (homogéneas) o diferentes (heterogéneas). Como la significación es mayor a 0.05 no podemos rechazar la idea que las varianzas son iguales. Si no recuerdan por qué se da esto, pueden ir al post de estadística inferencial que los puede ayudar. Un tema importante, para que este análisis sea lo más preciso posible y cumpla todas las reglas de juego, es necesario que las varianzas sean iguales. Dado que en nuestro ejemplo ocurre esto, podemos ser felices y seguir mirando las siguientes tablas.

Tabla 2

intersujetos2wayanova

Esta tabla es la central en el análisis del anova de dos vías. Fírmenlo, recuérdenlo y apúntenlo. Aquí, lo que estamos viendo es la significación y si existe relación entre nuestras variables y el estrés. Aquí podemos ver tres cosas importantes: a) Percepción de salud, la significación es menor a 0.05 (es 0.011), los cual significa que existe relación o diferencias significativas entre las diferentes percepciones de salud y los niveles de estrés. b) Sexo, la significación es menor a 0.05 nuevamente, lo cual significa que sí existe relación entre el sexo y los niveles de estrés en este grupo de jóvenes. En otras palabras, hay diferentes por sexo en los niveles de estrés. Finalmente, c) SG*Sexo (que sería la interacción de percepción de salud con sexo), no muestra relación con los niveles de estrés. Por ello, la variable sexo y percepción de salud, tienen una relación con estrés que es independientemente de cada una. ¿Qué significa eso?  Que no hay una interacción entre Sexo y percepción de salud, y el conjunto relacionado de ambas no generan un cambio en los niveles de estrés. Los que no recuerdan qué es una interacción siempre pueden ir a este pot a refrescar la memoria. 

Tabla 3

diferencias por sexo

Esta tabla nos muestra la diferencia en los niveles de estrés entre hombres y mujeres. Como podemos ver, los hombres reportan menos niveles de estrés que las mujeres. ¿Cómo podemos saber esto? De dos maneras: a) podemos fijarnos en la tabla 2 donde mostraba que hay una relación significativa entre sexo y niveles de estrés. b) podemos ver los intervalos de confianza donde claramente se muestra que los intervalos del promedio de hombres no chocan o traslapan con el de mujeres. ¿Cómo así? El límite superior del intervalo de hombres es 31.301, mientras que el límite inferior de mujeres es 36.343. Por ello, nunca se chocan y eso es una prueba más que hay una diferencia significativa entre sexo. Los que quieren refrescar la memoria sobre intervalos de confianza, pueden ir a este post que les será de utilidad. 

Tabla 4

posthoc2wayanova

Finalmente, pasemos a la última tabla numérica. ¿Siguen acá conmigo? ¿Está todo bien? ¡Excelente sigamos!

Esta tabla intuyo que también debe ser familiar para ustedes, si no lo es, ¡no hay ningún problema! Pueden ir a este post y refrescar la memoria. Esta es una tabla de Post Hoc. Aquí, lo que le pedimos al SPSS es que nos muestre las diferencias entre cada una de las categorías de percepción de salud (Mala, Regular, Muy buena y Excelente) con las otras. No iremos muy al detalle con esta tabla porque es algo que ya hemos visto antes. Pero lo que sí sería importante mencionar es que si seguimos el clásico criterio de la significación menor a 0.05 podemos ver lo siguiente: Existen diferencias en los niveles de estrés entre las personas que dicen tener la salud mala versus los que dicen tener la salud, muy buena y excelente. Las personas con una percepción de mala salud, tienen mayores niveles de estrés que las personas con percepción de muy buena y excelente salud.

Aparte, en todos los otros casos, no existe una relación entre la percepción de salud y los niveles de estrés. Recuerden el post de estadística inferencial, nos morimos por rechazar la primera hipótesis que dice que los niveles de estrés son iguales. Pero para lograr hacer esto, nuestra significación debe ser menor a 0.05.

Gráfico 1

graficade2wayanova

Finalmente, el gráfico, ¡o el famoso gráfico! No se asusten, no se tambalean ni se mareen en la silla. Los gráficos deberían hacernos sonreír en lugar de preocuparnos porque nos dan una representación gráfica de nuestros números. Nota: las medias marginales del lado izquierdo nos muestran los promedios de estrés. Mientras más altos los puntos más estrés. De este gráfico podemos encontrar varias cosas: a) Las mujeres reportan más estrés que los hombres porque la línea verde que significan mujeres está más arriba que la de hombres. b) Tener una mala percepción de salud está relacionada con más altos niveles de estrés, especialmente en mujeres. Como dato curioso, en el caso de los hombres,  se puede ver en la gráfica que los hombres que reportan una percepción de salud buena tienen ligeramente mayores niveles de estrés que los que dicen tener una percepción regular.

Finalmente, y el dato más importante. No hay interacción entre sexo y percepción de salud y esta no se relaciona con los niveles de estrés. ¿Cómo se ve esto en la gráfica? Muy sencillo, si las líneas llegan a cruzarse entre sí, esto quiere decir que sí hay interacción. En otras palabras, la representación de una interacción en la gráfica es cuando las líneas chocan. 

¡Muy bien! ¡Eso sería todo! Lamento que este post haya sido tan largo, espero que no estén agotados, exhaustos ni hayan salido corriendo. Ya saben, que cualquier pregunta, comentario o duda siempre pueden escribir y dejar un maravilloso comentario en la parte de comentarios. Para la siguiente aventura de Stats SOS, veremos la regresión lineal simple. Y ahí se percatarán nuevamente cómo todos estos análisis son parecidos y una misma familia.

Espero que todos tengan un excelente día, ¡Buenas vibras!

Publicado en Básico 1.0 | Etiquetado , , | 56 comentarios

Cálculos manuales del ANOVA

Estimados todos, bienvenidos a Stats SOS. Tal como he comentado en el post sobre cálculos manuales de T-student. Este no es el típico post, aquí solo les dejaré cómo hacer un ANOVA utilizando cálculos manuales (ANOVA).

Los que estén interesados en saber cómo hacer un ANOVA en SPSS pueden ir a este post que los podrá ayudar.

¡Buenas vibras a todos!

Publicado en Cálculos manuales | Etiquetado , | 9 comentarios