Cerveza, estadística y la t-student

Primero que todo, bienvenidos a una nueva aventura de Stats SOS. Espero estén muy bien. Intuyo que se preguntarán o estarán intrigados por el título del post de hoy.

La cerveza y la estadística están fuertemente ligadas. No solo porque ambas son geniales, pero porque la famosa t-student fue creada en una cervecería (Guiness) por William Gosset. Sin embargo,  como la empresa no le permitía publicar información utilizando datos de la compañía, él decidió publicar su análisis bajo el seudónimo “student” y así apareció quizás uno de los análisis más utilizados en el mundo.

Después de un dato curioso, vamos a lo nuestro. La t-student es un análisis estadístico y uno de los más simples de la estadística inferencial.  Entonces, el objetivo del post de hoy es describir la t-student y comentar su uso de la manera más simple posible.

La t-student es un análisis lineal, en otras palabras lo que busca es que haya una relación entre dos variables de manera lineal. Si la variable A le pasa algo a la variable B también le ocurrirá. Sin embargo, en este caso, la variable A suele ser nominal (ver post) porque está formada por máximo dos grupos mientras que la B es númerica o de intervalos (ver  post). ¿Suena raro y críptico? ¡No hay problema, vamos a un ejemplo!

Nosotros que somos seres muy curiosos, tanto como los gatos, en un grupo de 100 personas queremos saber si existen diferencias entre 50 hombres y 50 mujeres (variable nominal) en su bienestar subjetivo (variable intervalo). Para ello, le tomamos una prueba de bienestar subjetivo a cada una de las personas. Metemos los datos al SPSS (o paquete estadístico que les provoque) y para saber si existen diferencias significativas entre los grupos le pedimos al programa que haga una t-student de muestras independientes. En este caso, usamos este análisis debido a que los hombres y las mujeres son grupos separados e independientes entre sí. 

La ruta en el SPSS es la siguiente: Analizar/Comparar medias/Prueba T para muestras independientes.

Ponemos en variable para contrastar lo que queremos comparar (en este caso Bienestar) y abajo en variable de agrupación los hombres y las mujeres (la variable sexo). Ponemos aceptar y sale la siguiente tabla:

Untitled

Los 50 hombres obtuvieron un puntaje promedio de bienestar de: 14.32 con una desviación estándar de 4.23

Las 50 mujeres obtuvieron un puntaje promedio de bienestar de: 11.74 con una desviación estándar de 5.03.

El error típico de la media será mejor explicado en la sección de comentarios.

Los que no se acuerdan qué es un promedio o media y desviación estándar no hay problema, pueden ir a este post que los ayudará a recordar, así que no se preocupen, ni se asusten y respiren.

Al ojo, podríamos decir que los hombres tienen un mayor bienestar que las mujeres. Pero como hemos visto en los post de errores y estadística inferencial si haces las cosas al ojo, terminas con el ojo morado :). Por ello, se usan técnicas como la t-student que es parte de la estadística inferencial. Para ello vemos la segunda tabla que nos muestra el programa:

Untitled1

Esta tabla muestra todo lo que necesitas para analizar si es que efectivamente hay diferencias estadísticamente significativas entre hombres y mujeres. Si se fijan, hay una F, dos significaciones, una t, grados de libertad (gl) e intervalos de confianza.

Para este caso, solo vamos a comentar lo que estríctamente se necesita para saber quién tiene más bienestar los hombres o las mujeres. ¿Van bien? ¿Ya salieron corriendo asustados? Me imagino que no, ¡así qué sigamos adelante!

Primero que todo, pensemos en leer la tabla de izquierda hacia la derecha. Para facilitar la lectura pondré “pasos” que son recomendables seguir. ¿Les parece bien?

Paso 1: Ver la primera porción de la tabla. La F es parte de una prueba llamada “Levene” este número lo que nos quiere decir es si es que las varianzas (ver post) del grupo de hombres y del grupo de mujeres son iguales o no. Para ello, es necesario mirar la significación (o sig en la tabla) si se percatan aquí la significación es mayor a 0.05 (en este caso es 0.107). En otras palabras, para un valor F de 2.64 hay una significación de 0.107. Entonces se debe asumir que las varianzas son iguales.

Recuerden, cuando la significación es mayor a 0.05 (como en este caso) entonces se debe aceptar la hipótesis nula (que los grupos son iguales), pero si es menor a 0.05 entonces se debe aceptar que los grupos son diferentes (este post quizás les ayude a recordar).

¿Siguen acá? ¡Muy bien! Ok, luego que asumimos que las varianzas son iguales debemos mirar en la tabla todos los números que están en la línea de “igualdad de varianza” en otras palabras, el “piso de arriba”, porque hemos asumido gracias a la significación de “Levene”, que las varianzas son iguales. Aún no sabemos si hay diferencias entre hombres y mujeres, recién en el siguiente paso lo veremos. 

Paso 2: Aquí podemos ver la t, los grados de libertad (gl) y la significación (sig). En la parte de comentarios describiré qué son los grados de libertad. La t, es el valor obtenido en base a una serie de cálculos matemáticos, a su vez este número (2.776) es tan buena gente que nos proporciona un valor de significación o sig. Por razones operativas, nos concentraremos en la significación porque esta es la que nos permite saber si existen diferencias en el bienestar entre hombres y mujeres.  En este caso el valor sig encontrado es 0.007 que como sabemos es menor a 0.05 (todo esto está en la tabla así que no se preocupen, los números no han aparecido por arte de magia). Entonces, no podemos decir que el bienestar de los hombres y las mujeres es igual (hipótesis nula), lo que sí podemos decir es que sí hay una diferencia en los promedios de bienestar subjetivo entre hombres y mujeres. La significación es menor a 0.05 (es 0.007) por ello, existe menos de 5% de probabilidad de cometer un error si decimos que hay una diferencia en el promedio de bienestar entre hombres y mujeres (ver post). ¡Entonces somos muy felices!

Paso 3: ¡Muy bien! Recién ahora podemos decir si efectivamente hay diferencias entre los puntajes promedio de bienestar entre hombres y mujeres. El paso 2, nos ha demostrado que sí hay diferencias, entonces ahora es necesario ver la primera tabla y revisar quién tiene un mayor promedio. Como ven, los hombres tienen un promedio de bienestar de 14.32 mientras que las mujeres tienen un bienestar promedio de 11.74. Esto quiere decir que los hombres tienen más bienestar que las mujeres. O dicho en otras palabras y en lenguaje técnico, ser hombre se relaciona con un mayor bienestar subjetivo que ser mujer. Por favor, las mujeres que leen este post no se vayan a molestar, estos datos son ficticios, no quiero herir sensibilidades ni nada, tanto hombres como mujeres podemos tener gran bienestar :). 

¡Bueno! Espero que hayan llegado hasta, que estén, ilesos, sanos y salvos. Comprendo que esto puede ser más complicado. En este post solo he puesto el ejemplo de una prueba t student con muestras independientes, también existe una t student para muestras relacionadas pero esto por el momento no será parte del blog. De todos modos, si tienen curiosidad o necesidad de saber sobre el análisis siempre pueden dejar un genial comentario y ¡encantado de poder ayudarlos!

Para la siguiente aventura, veremos la F de Fisher y análisis de varianza (ANOVA), que es una versión un poco más compleja de la t-stundent. Pero estoy seguro que todo saldrá muy bien.

¡Espero que les haya gustado! ¡Buenas vibras para todos! Espero verlos pronto.

Bibliografía recomendada

Eisenhart, C. (1979). On the Transition from “Student’s” z to “Student’s” t. The American Statistician, 33(1), 6-10.

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Básico 1.0, T-Student y etiquetada , , , . Guarda el enlace permanente.

31 respuestas a Cerveza, estadística y la t-student

  1. Pingback: Análisis de varianza (ANOVA) ¿Alegría o terror? | Estadística para todos, hecho por un psicólogo

  2. Pingback: La vida después del ANOVA: el Post Hoc | Stats SOS

  3. Alvaro Darcourt dijo:

    Hola Juanca!
    Está genial el blog. Quería consultar si es que la t-de student es sólo para muestras paramétricas o si también puede usarse en no-paramétricas. Asimismo, me queda la duda de cómo habría de proceder en caso el Test de Levene me arroje (en la cara) que las varianzas de ambos grupos son distintas entre sí (lo que no ocurre en el ejemplo).
    Un abrazo!

    Me gusta

    • Hola Alvaro, me alegra mucho que te hayas detenido a leer el blog. La t-student solo se utiliza para muestras paramétricas y es un análisis lineal. Esto significa por ejemplo que la relación entre una variable y otra es de manera lineal. Por ejemplo, el ser mujer (variable a) se relaciona con tener un mayor puntaje de estrés (variable B).
      Los análisis no-paramétricos que a la vez son no lineales como por ejemplo la U-Mann Whitney, Kruskal-Wallis, entre otros los voy a tratar posteriormente. Vamos al post, si tu muestra no fuera paramétrica para este caso tendrías que usar la U-Mann Whitney.
      Sobre tu segunda pregunta, ¿qué pasaría si te arroja en la cara que las varianzas de los grupos son distintas? Bueno primero te limpias. Después, miras la tabla que tiene como título “prueba de muestras independientes” y en lugar de utilizar la primera línea para leer tus resultados que dice “Se han asumido igualdad de varianzas” vas a la segunda línea (o piso de abajo como le llamo coloquialmente), donde el título dice “No se han asumido varianzas iguales”. Luego, lees los datos de este segundo caso.
      La interpretación es la misma que si tuvieras igualdad de varianzas, la diferencia es que usas la línea de abajo. El SPSS te pone las dos opciones por si acaso, la diferencia entre ambas es que cuando las varianzas no son iguales el SPSS calcula una “corrección” para solucionar el caso de desigualdad de varianzas. En principio, la t-student funciona como varianzas homogéneas pero siempre existen estas correcciones que te solucionan las dificultades como el hecho que sean heterogéneas.
      ¡Espero que estés muy bien!
      Un abrazo
      ¡Buenas vibras!

      Me gusta

  4. Pingback: ¡Pero qué linda relación tienen! La correlación de Pearson | Stats SOS

  5. Pingback: Tan parecidos que parecen relacionados: La t-student de muestras relacionadas | Stats SOS

  6. Pingback: Cálculos manuales de la T-Student | Stats SOS

  7. Pingback: Dos caminos, un destino: el ANOVA de dos vías | Stats SOS

  8. Pingback: ¿Muestras no paramétricas relacionadas? La W-wilcoxon | Stats SOS

  9. Anónimo dijo:

    Hola!! EXCELENTE POST!!!!! FELICITACIONES!!
    Me queda una duda respecto a cómo se interpretan los GL, t y F… estos suelen reportarse en las pruebas de T student?? qué significan y cómo se reportan??

    Muchas gracias!

    Me gusta

    • Estimado/a

      Muchas gracias por escribir en Stats SOS y por las felicitaciones :). Me alegra mucho que el post haya sido de tu agrado.
      Sí, esos análisis se suelen reportar en la T-student. Bueno, la F de Fisher no, porque ese estadístico es parte del análisis de varianza (ANOVA) que es un extensión de la T-student.
      En ese caso, si te parece, me centraré en los grados de libertad y en la t student.
      Los grados de libertad son la cantidad de valores finales que se les permite variar. Esa es la definición, en sencillo son la cantidad de pedazos de información que entran para estimar un parámetro, en otras palabras para calcular algo.
      Por ejemplo, en el ejercicio del post tenemos 100 personas. Por ende, tenemos 100 pedazos de información (porque cada persona tiene un puntaje individual). Como queremos comparar dos grupos necesitamos estimar dos medias. Pero para eso, necesitamos entregar un pedazo de información por análisis. Entonces, entregamos 1 pedazo de información para calcular la media del primer grupo y otro pedazo de información para calcular la media del segundo grupo. Entonces entregamos 2, de los 100 pedazos de información que teníamos al comienzo. Por lo tanto, nos quedamos con 98 pedazos de información. Esos 98 pedazos de información son nuestros grados de libertad.
      Para cerrar, este punto quiero hacer una analogía pequeña que puede ayudar. Imagínate que quieres comparar cuáles son más ricos, los caramelos rojos o los verdes. Cada caramelo cuesta 1 dólar. Entonces, compras dos caramelos, (uno de cada uno), y pagas con un billete de 100 dólares. Por ello, te quedas con 98 dólares. Entonces, para comparar los dos caramelos tuviste que comprar 2 y por ello pagar 2 dólares, por eso te quedaste con 98 dólares o 98 grados de libertad.
      Por otro lado, la t student es un análisis lineal y que busca hacer una relación lineal entre dos grupos y una variable de intervalo (numérica). Lo que te dice el valor t es cuán significativo es tu análisis. ¿Cómo se ve esto? Es necesario revisar las tablas de valores críticos que están en este post:
      https://statssos.net/2015/05/01/tablas-de-valores-criticos-para-diferentes-distribuciones/

      Ahí para el valor t con una cantidad específica de grados de libertad obtienes una significación.
      Por ejemplo, en el post hay un valor t = 2.776 con 98 grados de libertad. Encuentras en la tabla que tienes una significación que es aproximadamente menor a 0.01 (el valor de la significación se obtiene de la tabla). Lo importante, es obtener una significación menor a 0.05 o 0.01 dependiendo de que meta te has puesto como significación.
      Por ejemplo, según la tabla para obtener una significación de 0.05 con 60 grados de libertad necesitas un valor t de por lo menos 1.671 (este ejemplo lo puedes revisar en la tabla de t-student).
      Finalmente, cómo se reporta la t student. Según APA, se hace de la siguiente manera:
      t(df) = valor de la t, p = significación Por ejemplo, t(98) = 2.776, p < .005. De todos modos te recomendaría revisar los manuales de APA que están online.
      Espero que esto haya ayudado y encantado que me vuelvas a escribir.
      ¡Buenas vibras!

      Me gusta

  10. Pingback: Mis grupos son diferentes ¿Cuán diferentes? El tamaño del efecto | Stats SOS

  11. Anónimo dijo:

    Hola, tenía una consulta. ¿Hasta cuántos grupos (de la variable categórica) se pueden comparar? ¿Podía por ejemplo comparar grupos de solteros, casados, convivientes y divorciados junto con alguna variable numérica -por ejemplo nivel de estrés? ¿o sólo se pueden comparara y ver si hay diferencias significativas en pares (como el ejemplo que diste hombre versus mujeres)?

    Me gusta

  12. Anónimo dijo:

    Hola, estoy realizando algunos análisis y me sale en la prueba de Levene que la significancia es 0.05 (ni mayor ni menor), en este caso que implica esto qué las varianzas son iguales o que son diferentes?

    Muchas gracias!

    Me gusta

    • Hola,

      Muchas gracias por escribir un comentario en Stats SOS. ¡Qué interesante caso! Mira, si estuviera en esa situación asumiría homogeneidad de varianzas. ¿Por qué lo haría? Porque cuando asumes igualdad de varianzas escoges un análisis más robusto (acapara más), que el que no tiene homogeneidad de varianzas. Por otro lado, siendo algo estrictos la regla general dice que para rechazar debe ser menor a 0.05 y no menor o igual.
      Espero que esto ayude
      ¡Muchos éxitos!

      Me gusta

      • mario dijo:

        Juanca, en ese caso de tener una significancia exacta de 0,05 dependerá mi criterio de rechazar o no mi hipótesis nula de los grados de libertad que se tengan ?

        Me gusta

        • Estimado Mario,

          Muchas gracias por escribir a Stats SOS. La respuesta a tu pregunta es un simple “Sí”. Al final del día los grados de libertad están relacionados con la significancia. Entonces sí, depende de tu criterio y de cuántos grados de libertad tengas.
          ¡Muchos éxitos!

          Me gusta

  13. sara030589 dijo:

    Estimado Juan Carlos:
    Tengo una pregunta con respecto al valor de la t de student ¿ Qué sucede si en mi caso este valor es negativo? Te agradezco muchísimo tus respuestas, desde que empecé a leerte, tengo ciertas nociones sobre estadística.

    Me gusta

  14. Luis castro dijo:

    Estimado Juan carlos, en ecuaciones estructurales bajo SPSS, que significa una T-sutend negativa, estoy relacionando capacidad de absorción de conocimientos vresus desempeño financiero y los resultados fueron: estimate -0,359
    CR(t-student – 2,34
    y***muy significativa

    De antemano Muy agradecido

    Me gusta

    • Estimado Luis,

      Muchas gracias por escribir en Stats SOS. Me confunde un poco tu idea de ecuaciones estructurales de SPSS. Que yo sepa, solo en AMOS de SPSS se puede hacer dicho análisis. No me queda muy claro a qué te refieres.

      Por lo que veo aparentemente estás relacionando variables. El t-student lo único que muestra es el orden en que has puesto tus variables. Hay una menor media en tu primera variable que en la segunda variable. Lo importante aquí, más allá del signo de la t-student es el estimados. Un estimador de -0.359 dice que las variables que estás relacionando en tu modelo de ecuaciones estructurales tienen una relación inversa y que es estadísticamente significativa.

      ¡Mucho éxito!

      Me gusta

  15. Pingback: ¿Números muy fríos? ¡Presentemos gráficos! | Stats SOS

  16. Juan dijo:

    Pero si me sale una t negativa y no hay valores en la tabla con t negativa, qué hay que hacer?

    Me gusta

  17. Muchas gracias!! me salvaste la vida, justo tenia un problema porque me salía la t negativa y no sabia por qué, mil gracias!!

    Me gusta

  18. CELIA CRISTOBAL HERNANDEZ dijo:

    hola mi problema es que al aplicar la t de student para una muestra el valor critico es de 2.056 y la t de student igual a -15.087, y no se como aplicar el resultado, si debo aceptar la hipotesis nula o rechazarla, me piden que aplique la prueba de valor critico para una media poblacional de 0.055, una desviación estandar de 1.00571 para 27 observaciones.

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s