¿Cómo evitar sesgos en las series de datos que recojo para un trabajo científico?

Llevo unos días preparando algunos resúmenes sobre evaluaciones estadísticas de datos recogidos desde diversos sistemas de medición. He de ponerlos en contexto/relación y como pueden ser la base de una publicación científica me he sentido en la necesidad de revisarlos todos de forma muy crítica. (No, publicar cosas en biomedicina no es tan sencillo como publicar datos de modelos climáticos, y la exigencia de los reviewers es infinitamente mayor)

Así que me puse a revisar posibles fuentes de sesgo en mis datos… y como quise hacerlo de cabo a rabo, me confeccioné una lista de posibles sesgos que pongo a su disposición. Sesgo es cualquier cosa que nos llevaría a «facilitar» nuestras conclusiones no tratando los resultados y la evidencia de manera objetiva. A veces es inevitable, a veces accidental y a veces, por desgracia, deliberado. Nosotros en biomedicina somos muy conscientes del enorme peligro que el sesgo supone para nuestro trabajo, mi contacto de aficionado con la ciencia del clima o con la economía me ha enseñado, pero, que hay otros campos en los que no parece ser «importante». No les escribo esto para que aprendan la teoría sobre el error en la recogida de datos, pero sí para que tengan en cuenta algunas de estas cosas cuando les pongan «datos» de temperatura, por ejemplo, para justificar unos impuestillos más o la famos «justicia climática», que no es otra cosa que redistribución de dinero en función de cómo se presentan determinados datos climáticos.

Sesgo de confirmación. La gente tiende a ser menos crítica con aquellos datos que soportan sus creencias previas y no desafían sus convicciones. Esto ocurre muy frecuentemente cuando los resultados que van contra lo que esperábamos encontrar son rechazadas en favor de los resultados que sí promuevan lo que esperábamos encontrar. Si lo que quiero es mostrar calentamiento global, por ejemplo, es mejor fijarme en los datos procedentes de estaciones que miden «calentamiento» (por ejemplo en las ciudades) que en los procedentes de las estaciones que no lo hacen.
Sesgo de rescate. Este sesgo implica encontrar selectivamente errores en los resultados de un experimento que contradice las expectativas. En general, es un intento deliberado de eludir y socavar la evidencia. Imaginen que hemos realizado tres experimentos para evaluar una hipótesis. Uno de ellos no da los resultados «esperados», y empezamos a argumentar que lo ocurrido fué que el experimento no se había podido realizar en las mismas condiciones que los otros dos, o que hubo un error en la recogida de datos, o … el caso es terminar diciendo aquello de: «si las condiciones hubiesen sido ideales, los resultados… blabla) vamos, que nos inventamos lo que debería de havber sido el resultado del experimento en cuestión-
Sesgo tipo «El tiempo dirá». Cuantas más pruebas reunamos (más datos), mayor debería ser nuestra confianza en los resultado. Este sesgo afecta a la cantidad de pruebas que se consideren necesarias para aceptar los resultados obtenidos como buenos. Es un error en el que se cae siempre que se tiene prisa. Extrapolamos en lugar de medir. Modelamos, vamos.
Sesgo de orientación. Tremendo error que ocurre cuando los resultados de un experimento y sus datos deben corroborar una teoría que se ha dado por cierta. Seguro que los lectores de esta web pueden darnos algunos ejemplos.
Sesgo cognitivo. Nace de la tendencia a tomar decisiones sesgadas sobre la base de factores preexistentes, más que basados en los datos y otras pruebas más «duras». Es un efecto psicológico que produce una desviación en el procesamiento de lo percibido, lo que lleva a una distorsión, juicio inexacto, interpretación ilógica, o lo que se llama en términos generales irracionalidad, que se da sobre la base de la interpretación de la información disponible, aunque los datos no sean lógicos o no estén relacionados entre sí. ¿Les suena?
El sesgo de selección. Esta es la tendencia a sesgar la elección de las fuentes de datos, reduciendo éstas a las que pueden estar más disponibles, ser más conveniente y más rentables para los propósitos del investigador.
Sesgo de muestreo. Esta es la tendencia a sesgar el muestreo de los conjuntos de datos hacia subgrupos de la población o subgrupos de datos. Un buen ejemplo es hacer cualquier tipo de afirmación sociológica en función de los usuarios de Twitter. Resulta que los usuarios de twitter no son representativos de ninguna sociedad, con lo cual de poco servirán los datos allí recogidos más allá del mundo twitter.
Sesgo de Modelado. Acertaron. Esta es la tendencia a sesgar los modelos de toma de datos, comenzando con un conjunto parcial de supuestos sobre el problema. Esto conduce a la selección de las variables equivocadas, datos erróneos, algoritmos equivocadas y métricas equivocadas.

La cuestión es, ¿qué se puede hacer para contrarrestar estas tendencias en el trabajo de recogida z evaluación de datos?

El primer paso es tomar conciencia de que podemos haber caído en un error, y esperemos que la lista anterior le ayude a usted a repasar lo que hace. Si conoce los sesgos, puede permanecer alerta frente a ellos en su propio trabajo y el de otros. Sea crítico y desconfíe siempre de supuestos y diseños.

La segunda mejor opción es hacer lo que hacen los científicos que hacen su trabajo de la manera más reproducible y transparente posible.

Hacer seguimiento de sus fuentes de datos y el perfil de sus datos en bruto tanto como sea posible. Mirar las métricas directas de sus datos, tales como distribuciones y rangos. Pero también mirar la información cualitativa de los datos. ¿De dónde vienen? Son representativos?
Asegúrese de que sus transformaciones de datos y su influencia en las poblaciones (grupos) pueden ser claramente resumidos y comprendidos. ¿Está usted filtrando datos? ¿Por qué y cuáles? ¿Cómo está calculando sus variables y ha evaluado alternativas?¿Dónde está la evidencia para haber tomado sus decisiones?
Seguimiento de todos los resultados de trabajo y la comprensión de datos a medida que evolucionan con el proyecto. Esto le permite mirar hacia atrás en las rutas de exploración que, o bien descartó, o no tuvo tiempo de comprobar concienzudamente.

El sesgo es a veces inevitable debido a la financiación, la política o las limitaciones de recursos. Sin embargo eso no significa que usted pueda ignorar el sesgo. Reconocer los tipos de sesgo, y la comprensión de su impacto en sus conclusiones le hará un mejor científico y mejorará la calidad de sus conclusiones. Si es lector de ciencia, estas notas le ayudarán a profundizar en la comprensión crítica de lo que lee.

¿Le interesa el tema? ¿Es usted científico del clima? ¿Economista tal vez? Le dejo unos enlaces:

Data Scientist: Bias, Backlash and Brutal Self-Criticism, James Kobielus, MAY 16, 2013, http://www.ibmbigdatahub.com/blog/data-scientist-bias-backlash-and-brutal-self-criticism
The Hidden Biases in Big Data, Kate Crawford APRIL 01, 2013,https://hbr.org/2013/04/the-hidden-biases-in-big-data
7 Common Biases That Skew Big Data Results, 9th July 2015 Lisa Morgan,http://www.informationweek.com/big-data/big-data-analytics/7-common-biases-that-skew-big-data-results/d/d-id/1321211
Design of Experiments for the Tuning of Optimisation Algorithms, 2004, University of York, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.9333&rep=rep1&type=pdf

Luis I. Gómez

Tendencia ahora