Ya he apuntado en otras ocasiones que las ciencias sociales modernas se construyen cada vez más sobre el análisis de datos. No solo en ámbitos académicos ha aumentado la importancia y el uso de la información cuantitativa. También ha aumentado mucho la presencia mediática de los 'fact checkers', esto es, los que verifican noticias recurriendo a los datos. Uno de los pocos efectos positivos de la crisis de la Covid-19 es que la opinión pública se ha habituado a escuchar e interpretar datos, en este caso, sobre incidencia (contagiados, enfermos, defunciones) y la marcha de las vacunaciones. En definitiva, en cualquier ámbito “hablar de y con datos” es cada vez más un requisito que parece aspirar a ciertas dosis de veracidad y credibilidad.

Sin embargo, suele ocurrir que no siempre se escucha bien lo que los datos pueden decir. Hay, al menos, tres errores que se cometen continuamente. El primero tiene que ver con la utilización torticera de datos inadecuados, costumbre que adopta dos formas. La primera es obviamente el uso de datos incorrectos o manipulados, sin que se preste atención a su origen y su elaboración. Por ejemplo, se utilizan datos de encuestas sobre fenómenos sociales sin comprobar si la población encuestada es representativa o si se han cometido errores de medida en la recolección de los datos. Una segunda versión es el uso de datos (bien construidos) pero con la unidad de medida incorrecta, de manera que con demasiada frecuencia se presentan comparaciones sin la normalización adecuada. Así, por ejemplo, decir que en Madrid el número de fallecidos en residencias de ancianos ha sido muy superior al del resto de las Comunidades Autónomas no es decir gran cosa si no se ponen los datos en relación con la población residente en dichas instituciones. En definitiva, en el uso de los datos suele faltar los sentidos de la proporción y de la medida que son, junto con el sentido común, algunos de los menos comunes.

Un segundo error viene de la tendencia natural a interpretar que cuando dos cosas suceden al mismo tiempo, una de ellas debe causar la otra, es decir, a tomar asociación estadística por causalidad. Esta confusión se produce muchas veces por el desprecio del mecanismo que debería fundamentar tal relación de causalidad. Si resulta que residentes en países con mayor consumo de chocolate han recibido un mayor número de Premios Nobel (lo cual es factual), no se nos ocurriría decir que es porque el consumo de chocolate aumenta la capacidad de investigación exitosa, sino que por el contrario concluiríamos que, más que de causalidad, tal relación es casualidad. Pues bien, aunque parezca chocante, en debates públicos son frecuentes ocurrencias similares (interpretar casualidades como causalidades sin indagar cuáles son los mecanismos que podrían originarlas).

Otras veces la confusión entre correlación y causalidad se debe a la omisión de factores que determinan ambas variables asociadas estadísticamente. Por ejemplo, cuando se dice que es necesario el crecimiento económico para crear empleo, se olvida que la afirmación contraria (que la creación de empleo contribuye al crecimiento económico) es también cierta y que ambos fenómenos son el resultado de muchos otros factores que no se tienen en cuenta (tantos que dan más que de sobra para escribir un libro). En ciencias sociales no hay mecanismos lineales simples y unidireccionales. Por el contrario, cualquier fenómeno es el resultado de un cúmulo de factores que tienen consecuencias variadas.

Finalmente, el olvido de esos otros factores también produce el error contario al anterior: interpretar la ausencia de asociación estadística entre dos fenómenos como inexistencia de causalidad entre ellos. Por ejemplo, un automóvil se mueve a velocidad constante tanto en terreno llano como subiendo pendientes solo porque el conductor pisa el acelerador cuando llega a los tramos empinados. Sin embargo, un observador que no tuviera en cuenta la pendiente de la carretera podría concluir que no existe relación de causalidad entre pisar el acelerador y la velocidad del automóvil. Esta omisión de factores exógenos es muy frecuente en el análisis de las políticas públicas donde una determinada medida puede tener unos efectos u otros dependiendo del contexto geográfico y temporal en los que se implementa.

William Edwards Deming estadístico y profesor universitario estadounidense, pionero del control de calidad en la gestión de procesos, decía: “Confiamos en Dios, todos los demás que traigan datos”. A los agnósticos solo les queda confiar en los datos, pero cuando están bien construidos, adecuadamente interpretados y pueden informar sobre los asuntos de interés. Cuando no cumplen con estas condiciones es como si los trajera el diablo.