Correlación no implica causalidad
Este artículo ha obtenido el primer premio del concurso DIPC de divulgación del evento Ciencia Jot Down 2016
_
Hay afirmaciones que no solo son
ciertas, sino que además son poderosas. Una de mis favoritas es, sin
duda, «correlación no implica causalidad». En el mundo de los debates
públicos, de las peleas en Twitter y los flames en Menéame
siempre es útil contar con herramientas como esta. La frase en sí viene a
significar que el hecho de que dos eventos se den habitualmente de
manera consecutiva no implica que uno sea causa del otro. Así, cuando
llueve es más probable que truene, pero no es la lluvia la que causa los
truenos.
Imagínate
que por un giro del destino te ves envuelto en una discusión sobre, por
ejemplo, si el modelo de educación finés es el ejemplo a seguir en
España. No tienes ni idea de pedagogía, ni del modelo educativo español,
ni del finés. Si fuera una discusión en un bar no pasaría nada, podrías
decir que no te interesa, pero es en internet y ya se sabe lo que eso
implica. En el cibermundo no vas a reconocer que no sabes de un tema.
Tienes que discutir y, aún más importante, tienes que ganar. Tu oponente
dialéctico está más preparado que tú. Te bombardea con datos y estudios
sobre el informe PISA, sobre los distintos métodos pedagógicos y sobre
muchas otras cosas que no te interesan. Da igual, porque tú estás
curtido en mil ciberbatallas y sabes como contraatacar. Esperas un
momento de descuido de tu oponente. Entonces te colocas bien el palillo
que sujetas con los dientes y afirmas: «Todo eso está muy bien pero no
demuestra nada, porque la correlación no implica causalidad». Ni
siquiera importa si estás defendiendo el modelo finés o atacándolo.
Cualquier dato que se te haya dado ha quedado refutado. Correlación no
implica causalidad. El debate termina y has ganado.
¿Pero
tiene realmente este argumento una base sólida? No lo dudes, cualquier
persona con conocimientos básicos de estadística te lo podrá confirmar.
En cualquier caso vamos a indagar un poco más para que sepas usarlo
correctamente. Para eso nada mejor que usar un par de ejemplos.
El
ejemplo más clásico es el de los piratas y el calentamiento global. Este
se basa en un estudio desarrollado nada menos que por Bobby Henderson,
el creador de la Iglesia pastafari. Su intención era combatir los
argumentos de los creacionistas, un grupo muy dado a encontrar
correlaciones donde no las hay y a concluir que hay una causa detrás.
Casualmente la causa que siempre encuentran es la misma, Dios, causa
que, de nuevo casualmente, coincide con lo que estaban intentando
demostrar a priori. Para ilustrar el hecho de que el que dos
fenómenos se den al mismo tiempo no implica que uno cause el otro.
Henderson representó la temperatura global de la Tierra en función del
número de piratas en el mundo.
Claramente se aprecia que, a medida que
el número de piratas se ha reducido, la temperatura de la atmósfera ha
aumentado. Según los argumentos de los creacionistas, y otros grupos
favorables a encontrar causas donde no las hay, esto significaría que la
escasez de piratas es la verdadera causa del calentamiento global. No
hay otra explicación. Por este motivo los seguidores de la religión de
Henderson se disfrazan de piratas en el momento del culto, para combatir
así el cambio climático.
Veamos otro ejemplo. La página web Spurious Correlations se
dedica a buscar en distintas bases de datos correlaciones absurdas
entre series de datos. Una de las más populares es la que aparece en la
siguiente gráfica, que representa a través de los años tanto el número
de ahogamientos en piscina producidos en los Estados Unidos como el
número de películas realizadas por Nicolas Cage.
La
correlación es clara. Cuantas más películas hace el bueno de Nicolas más
gente muere ahogada. Lo mejor será que el pobre se retire y así
ahorrará sufrimiento al mundo.
Dado que
es difícil de creer que la gente se ahogue por culpa de Nicolas Cage, o
que los piratas determinen la temperatura global, podemos concluir que
estas correlaciones no implican que una cosa sea la causa de la otra.
Veamos entonces la explicación canónica a estas gráficas. Que dos
fenómenos se den a la vez, o que uno preceda al otro, no implica que uno
sea la causa del otro. Aunque observamos una correlación entre A
(películas de Cage) y B (ahogamientos en piscina) eso no significa que
las películas de Nicolas Cage provoquen que la gente quiera morir de una
manera agónica a la vez que refrescante (1).
¿Y, si
no es A la causa de B, por qué se dan los dos fenómenos a la vez de
forma repetida? Bueno, en general, si hay una fuerte correlación entre
los fenómenos A y B, tenemos cuatro posibilidades:
- Que A cause B (que los ahogamientos en piscinas hagan que el bueno de Nicolas quiera hacer más cine para animar a las familias).
- Que B cause A (yo mismo estuve tentado de ahogarme después de ver La búsqueda 2).
- Que haya un tercer fenómeno, C, que provocara tanto A como B (es complicado imaginar alguno, pero a lo mejor el Orden Mundial conspira para reducir la población humana tanto mediante el ahogamiento como mediante el aburrimiento).
- Puro y duro azar. Hay muchos datos en el mundo, así que si los comparamos todos más tarde o más temprano encontraremos este tipo de correlaciones que no significan nada.
Este
último punto es el más importante de todos, ya que no se puede demostrar
que algo no ha ocurrido por azar. Así que por muchos datos que te
pongan sobre la mesa tú no lo dudes. Ya tenemos una explicación sencilla
y todo encaja. Las correlaciones no tienen implicación ya que todo
puede ser debido a la casualidad en lugar de a la causalidad. Así que si
alguien nos dice que el sistema educativo finés es el mejor porque
puntúan muy alto en PISA, podemos callarlo con un firme y convencido
«correlación no implica causalidad».
Ya
tenemos un arma dialéctica precisa y afinada, e incluso podemos ir más
allá. Si mañana nos levantamos y leemos la siguiente noticia en el
periódico, no nos pasará nada.
Es
evidente que ni las autoridades sanitarias ni el redactor del artículo
tienen mucha idea de matemáticas. Nosotros, que estamos armados con un
conocimiento todopoderoso, sabemos que no hay de qué preocuparse. La
correlación no implica causalidad. Lo mismo son los yogures o lo mismo
no lo son. Lo mejor será comprar esa marca aprovechando la bajada de
precios. Está claro que tenemos un caso de una fuerte correlación. Todo
el mundo que comió tal yogur murió. Mientras tanto, el resto de personas
murieron a un ritmo normal. La correlación está fuera de duda.
Si algún
alarmista viene a tocarnos las narices podemos usar el mismo argumento
que antes. Tenemos correlación entre el comer yogur y el morir, así que
tenemos cuatro posibilidades:
- Los yogures son los causantes de la muerte de las personas.
- La muerte de las personas es causante de que se comiera antes el yogur.
- Hay un fenómeno que es causa a la vez de las muertes y de que la gente coma yogures.
- Es una simple casualidad. La gente muere, la gente come yogures, ¿qué le vamos a hacer?
La
segunda y tercera posibilidad son bastante improbables. Es difícil de
creer que las muertes causen la ingesta de yogures o que exista un
evento que provoque tanto el consumo de yogures como la muerte de los
que los consumen. Sin embargo, demostrar que no es azar es difícil. La
correlación es clara, pero nadie ha demostrado aún que los yogures estén
envenenados.
A estas
alturas el avispado lector (o la avispada lectora) ya habrá intuido que
este artículo no es una defensa a ultranza de la frasecita de las
narices. Seamos serios. Por mucho que estemos convencidos de que la
correlación no implica causalidad, si mañana ocurre algo así no nos lo
plantearíamos ni por un instante. Los yogures están envenenados. No hay
otra posibilidad. Por supuesto que habrá que analizarlos para ver qué ha
ocurrido, pero mientras tanto todos actuaremos guiados por la certeza
de que algo ha pasado.
¿Y qué
diferencia este caso del caso de los piratas o de las piscinas? Lo
primero es el sentido común, que nos dice que es posible que unos
yogures se envenenen, pero que es mucho más difícil que el noble oficio
de la piratería afecte al clima. Lo segundo es la correlación en sí.
Tenemos que tener en cuenta que no todas las correlaciones son iguales y
que a partir de ellas podemos sacar muchas conclusiones. La correlación
no es una magnitud dicotómica. No es algo que se tiene o no se tiene,
es algo que puede ser muy grande o muy pequeño.
Volviendo
al escabroso ejemplo de los yogures. Además de saber que hay una
correlación, podemos estimar qué probabilidad hay de que ocurra algo así
por casualidad. Imaginad que vemos en la noticia que un 0,1% de la
población española consumió el citado yogur el día en cuestión. Eso hace
unos 460.000 españoles muertos en un día. Este dato contrastaría con la
mortalidad en todo el año 2014, que fue de 395.830 personas (según
datos del INE). Ya, el que ocurra algo así es absolutamente improbable.
De hecho, es lo que se suele denominar, estadísticamente imposible.
Calcular la probabilidad de que esto ocurra requiere hacer suposiciones
sobre cómo se distribuye la mortalidad entre la población, las edades de
los consumidores de yogur y otros parámetros. Una estimación muy
conservadora me da el resultado de que la probabilidad es menor que una
entre 10^25 (2).
Es más probable encontrar algo de principio activo en una disolución
homeopática a que ocurra algo semejante por pura casualidad. Por eso
podemos concluir que algo ha ocurrido, aunque aún no hayamos analizado
los yogures.
¿Y qué
ocurre entonces con las piscinas y las películas de Nicolas Cage? Pues
ocurre simplemente que ahí la correlación no es tan grande. Ese es el quid
de la cuestión y el mensaje que me gustaría que os quedase después de
leer este artículo. Correlación no implica causalidad, es cierto, pero hay correlaciones más grandes que otras.
Como ya hemos dicho, la correlación no es una magnitud binaria. No es
tan simple como que exista o no exista. Hay correlaciones pequeñas como
la de las películas de Cage, y hay correlaciones muy grandes como la del
macabro ejemplo del yogur. En el ejemplo de las piscinas, la misma web
que lo dio a conocer calcula la probabilidad de que sea azar, un 33,4%.
Por supuesto ahí también hay suposiciones detrás, pero la manera de
calcularlo es bastante estándar. ¿Es un 33,4% una probabilidad muy baja?
Pues dependerá de para qué. Si tenemos en cuenta que los autores de la
web analizan cientos de miles de cadenas de datos, lo improbable sería
que no encontrasen ese tipo de correlaciones espurias. Simplemente
analizando el número de cadenas estudiadas y las correlaciones
encontradas se puede calcular la probabilidad de que sea puro azar o de
que pueda tener una causa más relevante.
A esto precisamente se dedican algunos analistas especializados en big data.
Analizan cantidades ingentes de datos y buscan correlaciones que nadie
espera. Después, se dedican a analizar la probabilidad de que sea azar o
no, y si no parece serlo lo analizan con más profundidad. Puede que dos
eventos en apariencia desconectados tengan una relación causal
demasiado difícil de apreciar a simple vista. Si encuentras este tipo de
correlaciones, puedes llegar a ganar mucho dinero al ser capaz de
predecir movimientos de los mercados que nadie más puede ver.
Nadie
duda de que la correlación no implica causalidad. Científicos de todos
los campos dedican cantidades ingentes de tiempo a repetir experimentos
para distinguir correlaciones importantes de correlaciones espurias.
Incluso se ha observado que muchos experimentos científicos con grandes
correlaciones tienen una probabilidad alta de ser puramente casuales.
Eso ocurre porque en el mundo se realizan muchos experimentos
continuamente. La probabilidad de que nunca se dé una correlación
espuria es realmente baja y son precisamente las correlaciones
inesperadas las que más interesan a la comunidad científica. El único
remedio para evitar esto es la repetición de los experimentos. Sin
embargo, todo esto no quiere decir que las correlaciones no tenga
relevancia, o que no sean indicativas de causalidad. Tenemos que saber
distinguir entre correlaciones más y menos probables. Tenemos que
analizar cada caso cuantitativamente y averiguar cuál es la probabilidad
de que un evento sea aleatorio para saber si debemos indagar más o no.
Si nos
molestamos en mirar los datos antes de aceptarlos o desecharlos,
aumentaremos nuestro conocimiento del mundo. Si nos limitamos a desdeñar
los datos que contradigan nuestras ideas preconcebidas con una frase
hecha, a lo más que podemos aspirar es a ser el más listo de Menéame. Lo
primero es deseable. Lo segundo no es algo que uno deba incluir en su
currículum.
Notas:
(1) Antes de que se me acuse de atacar a Nicolas Cage innecesariamente y empecemos una discusión gafapasta sobre Leaving Las Vegas, me gustaría contraargumentar con solo dos palabras: Ghost Rider.
(2) Un uno y veinticinco ceros detrás, o si lo preferís 1000000000000000000000000.
No hay comentarios:
Publicar un comentario