¡Pero qué linda relación tienen! La correlación de Pearson

Estimados todos, bienvenidos a otro maravilloso capítulo de Stats SOS. Espero que estén muy bien, que estén disfrutando de sus diversas actividades y de buena salud.

Muy bien, luego de un mensaje agradable de bienvenida para ustedes motivados y valientes lectores, vamos a lo nuestro. El objetivo de este post es explicar y describir de manera sencilla (como siempre) la correlación de Pearson.

Primero que todo, ¿Qué es una correlación a qué suena esto? En sencillo, una correlación es la relación que tienen dos variables, o en otros términos cuánta varianza comparten dos variables. Existen diferentes tipos de correlaciones, pueden ser lineales o no lineales y como siempre llevan el nombre de la persona que inventó la operación matemática.

En esta oportunidad veremos la correlación de Karl Pearson, que es uno de los análisis estadísticos que más se utilizan en el mundo. Como comentario queridos lectores, ¡sí! no se pueden imaginar cuan utilizada es esta correlación, incluso en algunos análisis la estamos utilizando sin realmente darnos cuenta. Sin embargo, no se preocupen a medida que vayamos avanzando por el maravilloso camino de la estadística les iré comentando dónde esta correlación está presente.

¿Cómo funciona la correlación de Pearson? Muy sencillo, de verdad que sí. Esta correlación se utiliza cuando se quiere encontrar la relación lineal entre dos variables que son de intervalo. Los que no recuerdan qué es una variable de intervalo ¡no hay problema! Siempre pueden volver en el tiempo, a este post que puede darles un pequeño recordatorio. 

Les pido que tengan muy en cuenta estas dos ideas, por eso las voy a repetir acá. Para utilizar una correlación de Pearson, las variables deben: a) Tener una relación lineal entre sí. b) Ambas variables deben ser de intervalo. La correlación de Pearson no tiene nada que ver con que si la distribución sea paramétrica o no. Repito, no tiene nada que ver con que la distribución sea paramétrica o no. ¡Muy bien! Ahora que sacamos el elefante morado de la habitación podemos seguir.

¿Qué significa una relación lineal? Como ya hemos mencionado en post anteriores con la T-student y el ANOVA, una relación lineal en este caso es cuando dos variables de intervalo están relacionadas linealmente. Suena repetitivo, ¿no? Ampliemos la idea. Dos variables (A y B) están relacionadas directamente o positivamente cuando al subir los puntajes de la variable A, también suben los puntajes de la variable B. Por otro lado, otras dos variables (C y D), también pueden estar relacionadas de manera inversa o negativamente. Esto ocurre cuando los puntajes de la variable C se incrementan y los puntajes de la variable D se reducen. 

¡Mejor vamos a un ejemplo! Imagínense que queremos saber si existe una relación entre la percepción de salud general y la práctica de actividad física. En ese caso, juntamos nuestros cuestionarios y le preguntamos a una serie de personas (en este ejemplo son 448), cuán saludable se considera (variable A) y la práctica de actividad física que hace (variable B). Ambas variables han sido medidas con diversos ítems (o preguntas) y se ha sacado en base a la suma de todos estas preguntas un puntaje para salud general (variable A) y para práctica de actividad física (variable B). Entonces, ambas variables podrían ser tratadas como de intervalo.

Luego de haber hecho todo esto, vamos al SPSS y seguimos la siguiente ruta:

Analizar/Correlaciones/Bivariadas/

Les aparecerá una nueva ventana, en el recuadro que dice “Variables” es necesario poner ambas variables que queremos estudiar. En este caso, pondremos la variable A (Salud general) y la variable B (Práctica de actividad física). Luego, miraremos abajo donde dice “coeficientes de correlación” y solo marcaremos la casilla que dice “Pearson”. Finalmente, pondremos aceptar.

Un cuadro como este les debería aparecer.

correlacion pearson

¿Qué significa este cuadro? El número que dice “correlación de Pearson” muestra cuán relacionadas están las variables. Un tema importante es que la correlación va desde -1 hasta 1.  Si la correlación tiene un signo positivo como en este caso, quiere decir que a mayor puntaje de salud general, habrá mayor puntaje de actividad física. La correlación es de .345 y es significativa porque es menor a 0.05 (ver la línea que dice “Sig bilateral”). Si no recuerdan que significa esto, siempre pueden ir a este post que los puede ayudar. Entonces, finalmente, podemos decir que la salud general está relacionada positivamente con la práctica de actividad física. En este caso, tienen 34.5% (.345) de varianza compartida que también es llamada covarianza. De este modo, ambas variables tienen una relación de 34.5% o .345. Recomendación, en sus reportes usen mejor .345 que es lo más comúnmente utilizado.

¿Estuvo sencillo? ¿Siguen acá? ¡Muy bien! Les pondré otro ejemplo rápidamente. En este caso, nuevamente quisimos analizar la relación entre la variable A (Salud general) con una nueva variable C (Consumo de alcohol). Esta variable está representada por la cantidad de tragos que una persona consume a la semana, por ello es de intervalo. Nuevamente, seguimos los mismos pasos que el análisis pasado.

Ruta: Analizar/Correlaciones/Bivariadas/

En este caso, los resultados fueron los siguientes:

correlacion negativa

La relación entre salud general y consumo de alcohol es de -.027 con una significación de .565. Esta tabla nos dice varias cosas: a) la relación entre consumo de alcohol y salud general es inversa porque hay un signo negativo (-.027). Entonces, a mayor consumo de alcohol menor es la percepción de salud general. ¡Sin embargo! b) la relación entre estas dos variables no es significativa, porque la significación es de .565 número que es muchísimo mayor a 0.05. Entonces, no hay relación significativa entre estas dos variables. Finalmente, c) la relación entre Salud general y consumo de alcohol es casi nula. El número -.027, nos da cuenta que solo hay una relación o  covarianza compartida de 2.7% lo cual es nada.

¿Siguen ahi conmigo? ¿Están asustados o algo por el estilo? ¡Intuyo que no! Ustedes son valientes e inteligentes lectores que le han dado la oportunidad a la estadística, una disciplina incomprendida por el mundo de las ciencias sociales. Ahora, les presentaré dos último temas importantes. Por un lado, ¿cuál es la representación gráfica de todos estos números? Además, les pondré una tabla clásica de cómo se define si una correlación es más fuerte o más débil. 

Primero la representación gráfica:

 corcoef2

Antes que nada, los puntos representan cada puntaje de cada individuo que respondió las pruebas. En otras palabras, un punto es la representación gráfica de la respuesta de una persona. Ese punto, evidencia los puntajes de las pruebas tanto de Salud general como también de práctica de actividad física o consumo de alcohol (dependiendo del ejemplo que quieran tomar).

Por ejemplo, el eje Y (el eje vertical) sería la línea donde se pueden representar los puntajes de Salud general y el eje X (el eje vertical) sería la línea donde se pueden representar los puntajes de práctica de actividad física o consumo de alcohol. En ese caso, si el primer sujeto obtuvo 30 en salud general y 20 en prácticas de salud, la gráfica mostrará un punto en el valor 30 del eje Y (Salud general) y ese mismo punto estará en el valor 20 del eje X (práctica de actividad física).

¡Muy bien vamos la interpretación! El gráfico A les muestra una clara y común relación positiva o directa entre dos variables. Como ven, cuando el puntaje de una variable sube y el puntaje de la otra también lo hace. El gráfico B nos muestra una relación negativa o inversa porque cuando suben los puntajes de una variable bajan los puntajes de la otra. Por otro lado, el gráfico C muestra un ejemplo cuando no hay una relación entre dos variables. No sube ni baja, es una nube que flota sin dirección. Finalmente, el gráfico D es bien interesante. Si se fijan, sí hay un comportamiento y la gráfica tiene una forma (una forma cuadrática). Sin embargo, esta forma o comportamiento no es lineal por ello, la correlación de Pearson lo tomará como si no hubiera correlación o relación, debido a que el análisis de Pearson solo capta relaciones lineales. 

¿Siguen acá conmigo? Se que este post ha sido un poco largo, pero ya estamos en la parte final. ¿Cómo saber cuán fuerte es una correlación? Existen una serie de reglas que diversos estadístas y matemáticos han propuesto. Para efectos prácticos les presentaré la clásica y más común clasificación, los criterios de Cohen para la fuerza de una correlación. 

Para hacerlo más sencillo y práctico les presentaré una tabla que les puede ser de ayuda:

 correlacionesmagnitud

Esta tabla les dará un aproximado de cuán fuerte es la relación que obtuvieron. Por ejemplo, en nuestro primer análisis obtuvimos una correlación de .345 que sería equivalente a una correlación baja. En nuestro segundo análisis obtuvimos una correlación de .027 que sería equivalente a un correlación casi nula. De todos modos, hay que tener cuidado con estos criterios porque son arbitrarios y muchas veces muy rígidos y exigentes, en este caso siempre es bueno utilizar su propio criterio como analista o investigador. 

¡Muy bien! Si han llegado hasta acá los felicito, sinceramente, ha sido un post largo y con muchos temas. Sin embargo, no considero que hubiera sido lo mejor dividirlo en dos. Para la siguiente aventura de Stats SOS, volveremos un poco hacia atrás y a pedido del público trataré la T-student, pero esta vez su aplicación cuando se tienen muestras o medidas relacionadas entre sí. 

Los felicito por haber llegado hasta acá, ya saben que cualquier consulta, siempre pueden ir a la parte de comentarios y escribir, encantado de recibir sus comentarios y noticias. ¡Buenas vibras!

Bibliografía recomendada

Tabachnick, F., & Fidell, L. (2013). Multivariate statistics. Pearson. NY.

Anuncios

Acerca de Juan Carlos Saravia Drago

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
Esta entrada fue publicada en Básico 1.0 y etiquetada , , , . Guarda el enlace permanente.

36 respuestas a ¡Pero qué linda relación tienen! La correlación de Pearson

  1. Genial! Había estado esperando este tema hace tiempo! Muchas gracias por la información, es de gran ayuda 🙂

    Me gusta

  2. Luis Cordova dijo:

    Muy didáctico ´profesor Saravia. Muchos adultos como yo hemos tenido una pésima formación en estadística y psicometría. Ahora tenemos jóvenes docentes que nos enseñan algo que no aprendimos. Felicitaciones.

    Me gusta

    • Estimado Luis Cordova,

      Agradezco mucho su mensaje y me alegra mucho que este por estos lares interesado en la estadística. Espero que este sea (como bien lo describe) un espacio de aprendizaje didáctico y entretenido.
      Saludos y espero volver a verlo por aquí. Recuerde, si tiene una pregunta sobre algún tema encantado de responder.
      ¡Buenas vibras!

      Me gusta

  3. Pingback: Tan parecidos que parecen relacionados: La t-student de muestras relacionadas | Stats SOS

  4. Pingback: Pero mira, ¡qué genial cómo interactúan! La interacción estadística | Stats SOS

  5. Pingback: Gonzalo apoya la aditividad: Los 4 supuestos de la regresion lineal | Stats SOS

  6. Pingback: Un día llegó la regresión múltiple | Stats SOS

  7. Marco Carranza dijo:

    Es excelente la información y felicito la iniciativa. (Y)
    Por otra parte sería importante recomendarnos alguna bibliografía para extender nuestros conocimientos.

    Me gusta

    • Estimado Marco Carranza,

      Agradezco mucho su comentario. Perfecto, su sugerencia es excelente, la tomaré en cuenta. Ya he comenzado a agregar bibliografía en los posts, pero cuando no cite pondré bibliografía recomendada abajo.
      Por lo pronto, este libro puede ser de ayuda para profundizar sobre correlaciones y otros temas más. Ire completando de a pocos los posts anteriores con bibliografía recomendada.
      Field, A. (2013). Discovering Statistics using IBM SPSS Statistics. UK: Sage.
      ¡Buenas vibras!

      Me gusta

  8. Pingback: ¿Tienes confianza? La confiabilidad y el Alfa de Cronbach | Stats SOS

  9. Anónimo dijo:

    Hola! Primero q nada muchas gracias por dedicar el tiempo para redactar sobre tan importantes temas. La estadística es algo que recientemente me esta atrapando y bueno aún estoy en camino ^_^

    Gracias a blogs como los tuyos es que puedo seguir adelante!
    Estoy haciendo un análisis de correlaciones…
    Mi muestra es normal mayor a 500 personas y tanto la asimetría como la curtosis no son extremas. Por lo tanto estoy usando pearson para las correlaciones. Mi pregunta es qué tan recomendable es hacer un análisis de correlaciones entre los items?

    De antemano muchas gracias! 🙂

    Me gusta

    • Estimado/a,

      Muchas gracias por escribir a Stats SOS. Me alegra mucho que te esté atrapando la estadística, considero que es muy entretenida e interesante.

      Tu tamaño de muestra es importante lo cual es excelente. Por otro lado, te hago un comentario: la correlación de pearson se aplica cuando los puntajes de las pruebas son de intervalo. Por ello, la asimetría, la curtosis y que la distribución de tus puntajes sea normal no es un requisito para aplicar esta correlación. Ok, luego que esto salió del camino vamos a tu pregunta.

      Es posible hacer una correlación entre los ítems pero no encuentro cuál sería el objetivo de hacer esto. Si deseas ver cuán bien funcionan los ítems y la estructura factorial de la prueba, considero que hacer una correlación entre los ítems es muy importante. Sin embargo, si ese no es el objetivo no se cuán recomendable sería hacerlo y con qué fin. Como siempre, depende del objetivo de tu estudio.
      Espero que esto haya ayudado.
      ¡Muchos éxitos!

      Me gusta

      • Anónimo dijo:

        He hecho un análisis factorial para ver la estructura de la escala de seguridad ocupacional y todo ok, pero mi objetivo al hacer correlaciones entre items es ver qué tanto se relaciona el item5 (los jefes nos comunican las políticas de seguridad industrial) con 3 items más que miden comportamientos o actitudes propensas a producir un incidente dentro de la organización.

        agradeceré tus comentarios.

        Me gusta

        • Estimado/a,

          Muchas gracias por escribir a Stats SOS. Sobre la pregunta, es posible hacer una correlación de pearson entre dos ítems, la respuesta es sí, es totalmente plausible.
          Por otro lado, tomando en cuenta que la estructural factorial está ok y probablemente el alfa de cronbach también, no sería sorpresivo que se encuentre una correlación alta entre ambos ítems.
          Pero sí, es posible hacer ese análisis. Si está en línea con los objetivos de su estudio adelante.
          ¡Muchos éxitos!

          Me gusta

  10. sara030589 dijo:

    Estimado Juan Carlos:
    Disculpa que aparezca como spam en cada uno de tus post últimamente; sin embargo, no te imaginas lo que he avanzado gracias a su lectura. Necesito hacerte una pregunta: tengo que hacer correlaciones entre mi variable dependiente ( nivel de estrés) y otras de intervalo. Sin embargo, en dos de estas escalas, los puntajes totales, están categorizados ( 1= consumo de bajo riesgo, 2= consumo de riesgo, 3=…); en la otra escala los puntajes totales han sido dicotomizados. Mi pregunta es: ¿ tengo que correlaciones con estas escalas? o, como están categorizadas o dicotomizadas me conviene más aplicar con ellas un ANOVA y una T de student. Espero que me hayas entendido, de antemano te agradezco tu ayuda…

    Me gusta

    • sara030589 dijo:

      Me corrijo, la pregunta es: si tengo que hacer correlaciones con estas escalas?

      Me gusta

    • Estimada Sara,

      Muchas gracias por escribir a Stats SOS y puedes hacer todas las preguntas que quieras. La respuesta a tu pregunta es no, no puedes hacer correlaciones con una variable con categorías y una de intervalo.
      Lo mejor sería hacer una t-student o un ANOVA eso depende de la cantidad de grupos que tienes en tu variable que tiene categorías. Como bien sabes tu, la T- student se usa con vairable con solo 2 categorías y el ANOVA cuando tienes más de dos categorías. Estos análisis también muestran la relación entre dos variables.

      ¡Muchos éxitos!

      Me gusta

  11. MUCHAS GRACIAS, MG. JUAN CARLOS, FUE DE GRAN AYUDA PARA MÍ. DIOS LO BENDIGA.

    Me gusta

  12. José Ávila dijo:

    Estimado Juan Carlos

    Muchas gracias por tus aportes, los he estado siguiendo y en verdad son valiosos y agradables.
    Quiero formularte una pregunta. ¿Existe algún mecanismo, prueba o procedimiento para detectar si las correlaciones son espurias? En algunos casos parece muy simple “desechar” evidencias sin mayor sentido, por ejemplo, hace unas semanas veía en una red social que alguien publicó una nota “periodística” en la que informaban que tener vello en el pecho se correlacionaba significativamente con el IQ.
    Sin embargo, no siempre parece tan clara la espuriedad de una relación. Hace poco identifiqué datos en los que observaba que la Satisfacción con la vida correlacionaba negativamente con la Autoaceptación (del bienestar psicológico) y la Autonomía (como estrategia de afrontamiento), pero correlacionaba al tiempo positivamente con la Solución de problemas (Afrontamiento). Parece incongruente que tener una autoaceptación disminuida y escasa autonomía te genere más satisfacción con la vida, a la vez que esas relaciones también resultan opuestas con la Búsqueda de solución de problemas (al tratarse de una estrategia de afrontamiento activa, si busco solucionarlos debería ser autónomo, por ejemplo).
    He buscado en la literatura información sobre cómo probar si una correlación es espuria pero no encuentro mayores respuestas.
    Agradezco la ayuda que me puedas ofrecer.
    Saludos fraternos

    Me gusta

    • Estimado José,

      Muchas gracias por escribir a Stats SOS. Sí, es posible detectar las correlaciones espurias utilizando correlaciones parciales. Lo que observa las correlaciones parciales es si otra variable adicional está jugado un rol.
      Para seguir el ejemplo de los hombres con vello en el pecho e IQ, si esos hombres por ejemplo la gran mayoría trabajan en ocupaciones donde tienen que leer mucho y calcular varias operaciones matemáticas es probable que estén “mas familiarizados con pruebas de inteligencia”, entonces en el fondo no es vello en el pecho sino que todas esas personas tienen una característica extra que no se está midiendo.

      Prometo hacer pronto un post sobre correlaciones parciales usando un modelo de regresión para ver el tema.

      Saludos y mucho éxito en tu búsqueda.

      Me gusta

  13. Pingback: ¿Números muy fríos? ¡Presentemos gráficos! | Stats SOS

  14. gregory dijo:

    estoy trabajando con diseño factorial completo con tres pruebas centrales total 11 trtamiento en un solo bloque como interpreto los resultados.
    Análisis de Varianza para Volumen de Poros
    Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
    A:Ratio Molar: S:Hg 1.99001 1 1.99001 9.03 0.0398
    B:pH 1.25611 1 1.25611 5.70 0.0754
    C:Relacion MG/RSM-E 0.0666125 1 0.0666125 0.30 0.6118
    AB 3.71281 1 3.71281 16.84 0.0148
    AC 2.40901 1 2.40901 10.93 0.0298
    BC 0.0190125 1 0.0190125 0.09 0.7836
    Error total 0.81898 4 0.220474
    Total (corr.) 10.3355 10
    R-cuadrada = 91.4673 porciento
    R-cuadrada (ajustada por g.l.) = 78.6682 porciento
    Error estándar del est. = 0.469547
    Error absoluto medio = 0.231405
    Estadístico Durbin-Watson = 1.24766 (P=0.1669)
    Autocorrelación residual de Lag 1 = 0.186177

    Me gusta

    • Estimado Gregory,

      Muchas gracias por escribir a Stats SOS. Entiendo los números que pones sin embargo si me dieras un poco de contexto sobre qué es lo que estás analizando sería más fácil poder darte una respuesta que te sea más útil.

      ¡Mucho éxito!

      Me gusta

  15. Jose Pizarro dijo:

    Hola Juan Carlos
    Voy a usar correlación biserial para medir relación entre una variable cuantitativa continua y ua variable dicotómica categórica. ¿tiene sentido?. Y si es asi que prueba de significación se podría utilizar? Anteriormente he usado la “t” para Pearson, Muchas gracias por la respuesta.

    Me gusta

    • Hola José,

      Muchas gracias por escribir a Stats SOS. Sí, tiene sentido lo que planteas. En SPSS, puedes correr la correlación de Pearson son las variables que mencionas y automáticametne te corre una correlación biserial puntual. Así que vas por buen camino.

      ¡Mucho éxito!

      Me gusta

  16. Estimado Juan Carlos
    Le escribo para pedirle ayuda pues estoy haciendo mi tesis y durante el análisis de datos me generaron muchas dudas. Gracias a un amigo pude dar con su página Stats sos lo cual me ha ayudado muchisimo; sin embargo, me generó muchas dudas tu publicación acerca de las correlaciones de pearson y spearman. Comentas que, el usa una u otra, no depende de si las variables son paramétricas o no paramétricas, sino del tipo de variable (ordinal, nominal o intervalo). Eso me ha generado mucha confusión pues pensaba que se utilizaba spearman en variables no paramétricas y pearson en paramétricas. Esta duda no me permite continuar con mi análisis de datos. Yo estoy utilizando dos instrumentos una es el de ansiedad rasgo-estado (IDARE) y el estilo personal del terapeuta; el primero tiene dos escalas y el segundo cinco. Al momento de hallar la normalidad de las escalas, las dos de ansiedad me salieron con distribución no paramétrica. Las cinco escalas del segundo cuestionario (estilo personal del terapeuta) me salió con distribución paramétrica. Por lo tanto, al momento de realizar el análisis de correlación utilicé el estadístico de Spearman. Ahora según lo que tu comentas en tu publicación, mis dos variables serían de tipo intervalo. Mi duda es si, por ello, tendría que utilizar el estadístico de Pearson, ya que la distribución de la normalidad no tendrían nada que ver.
    Te pido por favor, me pudieses ayudar diciéndome si estoy entendiendo correctamente. Disculpa por el texto enorme.
    Agradezco tu tiempo.
    Saludos.

    Me gusta

    • Estimada Claudia,

      Muchas gracias por escribir a Stats SOS. Exáctamente, tendrías que usar la correlación de Pearson porque Spearman te cambia los datos de numéricos a ordinales dado que trabaja con ese tipo de datos. Además, tu buscas una relación lineal y la correlación de Spearman es monotónica.

      ¡Mucho éxito!

      Me gusta

      • Hola Juan Carlos
        Quisiera hacerte una pregunta más, ¿porqué se considera entonces que se debe usar spearman o pearson dependiendo de la normalidad de las variable? Me parece que siempre, en los trabajos de la universidad, lo he trabajado de esa forma o puede que haya sido un error mío; es por ello, que esto me está generando muchas dudas.
        Muchas gracias por tu respuesta, tu página es buenísima, me ha ayudado a refrescar temas de estadística que ya había aprendido y estoy aprendiendo cosas nuevas también.
        Saludos!

        Me gusta

        • Estimada Claudia,

          Muchas gracias por escribir a Stats SOS. Spearman es un distribución que no asume ningún tipo de distribución de datos. Por ello es que se le llama “no paramétrica” (a pesar que tenga igual parámetros pero esa es una discusión para otro día). Por eso es que te lo enseñaron de esa manera. Seguro en el camino se asumió que “no paramétrico” es que “no tenga una distribución normal o simétrica” cuando en realidad “no paramétrico” para este caso es que “no asume una distribución específica”.

          ¡Mucho éxito!

          Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s