Correlación

Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos responder a las preguntas, de si existe dependencia estocástica entre ellas y de qué grado. El análisis de correlación nos dará respuesta a dichas preguntas.

Prueba de independencia de dos caracteres cuantitativos

Dos variables X e Y son independientes, es decir, no están relacionadas, cuando la variable Y tiene el mismo valor, en media, sea cual sea el valor de la variable X y viceversa. (Ver por ejemplo la figura 6.1a).

Como vimos en la sección 6.1.3.1, la covarianza podía ser un medida que nos habla de la dependencia entre las dos variables. Sin embargo, la covarianza presenta el inconveniente de que no se trata de una medida adimensional, y por lo tanto se hace necesario conocer la fuerza de la relación -si existe- así como poder realizar comparaciones entre parejas de variables que vienen medidas en unidades diferentes. Por ello, y dado que viene medida en unidades de la variable X por unidades de la variable Y, la dividimos entre las correspondientes desviaciones típicas, obteniendo así, el denominado Coeficiente de correlación lineal de Pearson y que denotamos con una r minúscula:

Es importante fijarnos en que hemos denominado a dicho coeficiente: coeficiente de correlación lineal de Pearson. El "apellido lineal" es conveniente utilizarlo porque dicho coeficiente solo tiene potencia para analizar si la relación entre las dos variables es o no de tipo lineal. Si las variables son independientes, es un hecho de que el coeficiente de correlación lineal debe ser cero. Sin embargo, si el coeficiente de correlación lineal es 0, no implica que las variables sean independientes, simplemente que la relación no es lineal.

Como vemos, el coeficiente de correlación lleva asociado el mismo signo que la covarianza, por lo que si éste resulta ser positivo, indicará que se trata de una relación lineal directa, mientras que si es negativo, la relación será inversa.

Relación entre r y R2

Una propiedad sumamente importante del coeficiente de correlación r es que si el procedimiento de ajuste de la recta de regresión es el del criterio de los mínimos cuadrados, resulta:

r2 = R2

En el apartado 6.1.3.2 vimos que el coeficiente de determinación era un valor acotado entre 0 y 1. Teniendo en cuenta la relación anterior, podemos asegurar que el coeficiente de correlación es un valor acotado entre -1 y +1. Si r=+1, existe una correlación positiva perfecta, y si r=-1, analogamente pero negativa (en ambos casos R2=1, por lo tanto no hay errores, sería una dependencia funcional). A nivel muestral, es difícil encontrarnos con un valor de r = 0 aun cuando las variables sean independientes, de modo que podríamos pensar que cuanto más se acerque a 1, el grado de relación entre X e Y será más fuerte. ¿Sin embargo, a partir de qué valor muestral de r decidiremos que las variables son independientes, y a partir de cuál diremos que están relacionadas?

Distribución del coeficiente de correlación muestral

Para dar respuesta a la pregunta anterior, se ha estudiado la ley de probabilidad de los coeficientes de correlación observados en muestras extraídas al azar de una población en la que se sabe que X e Y son independientes, es decir, que el coeficiente de correlación poblacional (r) es 0.

Al extraer muestras de dicha población, los coeficientes de correlación muestral obtenidos, fluctúan alrededor de cero en forma simétrica, lo cual no ocurre si r es distinto de cero. Por ello, se ha construido una tabla en la que aparece el valor de r, que sólo era superado en el 5% (o el 1%) de las muestras extraídas de la población con r=0; En la primera columna de la tabla aparece el tamaño de muestra n -2.


grados de libertad (n-2)

5%

1%

grados de libertad (n-2)

5%

1%

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

.997

.950

.878

.811

.754

.707

.666

.632

.602

.576

.553

.532

.514

.497

.482

.468

.456

.444

.433

.423

.413

.404

.396

1.000

.990

.959

.917

.874

.834

.798

.765

.735

.708

.684

.661

.641

.623

.606

.590

.575

.561

.549

.537

.526

.515

.505

24

25

26

27

28

29

30

35

40

45

50

60

70

80

90

100

125

150

200

300

400

500

1000

.388

.381

.374

.367

.361

.355

.349

.325

.304

.288

.273

.250

.232

.217

.205

.195

.174

.159

.138

.113

.098

.088

.062

.496

.487

.478

.470

.463

.456

.449

.418

.393

.372

.354

.325

.302

.283

.267

.254

.228

.208

.181

.148

.128

.115

.081

Tabla del coeficiente de correlación

Realmente no se trata más que de un contraste de hipótesis. La hipótesis nula es: Ho: r=0, de modo que la hipótesis se rechaza sólo si el coeficiente de correlación muestral es, en valor absoluto, mayor que el valor crítico de la tabla, al nivel de significación elegido, y con los grados de libertad adecuados, ya que sólo rechazaremos Ho si el valor muestral encontrado es poco probable que ocurra cuando r=0.