Climategate: La Importancia de los Datos Brutos

Dentro del escándalo Climategate hay diversos asuntos que están centrando la atención (y con razón). Tanto que son incluso nombrados (de forma sesgada y tramposa, claro está) en los medios de desinformación masiva patrios (por ejemplo, el ya famoso “truco de Mike” para “ocultar el descenso”). Pero hay algo que resulta fundamental en todo crimen y en este caso parece haberse ejecutado a la perfección. Como sabe cualquier seguidor de CSI, un buen criminal procura esconder las pruebas que le puedan delatar, y si las destruye, mejor. Y eso es lo que parece que han hecho los intachables (hasta anteayer) científicos del CRU. Hablo lógicamente del escamoteo de los datos brutos de temperatura, origen y meollo de todo el asunto, que al parecer han sido destruidos. Recordemos, como nos informó Luis, que, tras destaparse el escándalo, los miembros del CRU accedieron a facilitar los datos de temperaturas hasta entonces celosamente guardados, pero con el ligero matiz de que lo que iban a entregar eran los datos que ellos habían procesado, no los originales que, según dicen, están en gran parte destruidos.

Pensando en como explicar la importancia de la destrucción (si se confirma) de los datos originales (datos brutos) he recordado una pequeña anécdota que le ocurrió a un amiguete. Esta persona, a falta de talento para una profesión más lucrativa (familiar de político sociata andaluz, mando pepero valenciano, futbolista de élite, traficante de armas y cosas así) se gana la vida ejerciendo de ingeniero.

Le encargaron un trabajo consistente en evaluar la viabilidad de un nuevo proyecto industrial en una pequeña localidad del sur. Un dato fundamental para su evaluación  eran las temperaturas en la zona (debido a arcanos motivos técnicos que no vienen al caso).

Por suerte, en las cercanías del emplazamiento había una pequeña estación meteorológica con datos de temperaturas máximas y mínimas día a día desde hace más de 50 años, que pudo conseguir en forma de un enorme fichero Excel.

El fichero original tenía miles de datos, y lo que se necesitaban eran medias, sencillas de obtener, pero también la distribución de horas-año con la temperatura ambiente comprendida en determinados rangos (T<0; 0<T<5; 5<T<10; y así).

Mi amigo elaboró una plantilla con filtros y sumatorios y luego procedió a ejecutar corta-pegas de los datos en bruto para diversos años representativos. Cuando empezó a recopilar los resultados anuales de sus medias y filtros, la sorpresa fue mayúscula. Las medias de temperaturas en las décadas de los 50 y 60 eran sistemáticamente inferiores en algo más de un grado a las de los 80 y éstas, a su vez, hasta dos grados menores que las de años recientes, como el 2.002 o el muy caluroso 2.003. En total, ¡más de tres grados de diferencia entre, por ejemplo, 1.962 y 2.003!

Vale que solo eran los datos de un observatorio concreto, pero el primer impulso de mi amigo, hasta entonces más bien escéptico con el asunto del calentamiento, fue correr a la cerería más cercana  y hacerse con un velón  para ofrendarlo en el altar mayor de la iglesia algoriana más cercana.

Por suerte para él, estando aun atormentado por los remordimientos, pasó la vista por encima por alguna de las hojas originales más antiguas de datos brutos recibidas del observatorio y le llamó la atención una sucesión de “0,0” ¡en pleno mes de agosto! Mosqueado, comenzó a repasar los datos originales y vio que las series de “0,0” eran más abundantes cuánto más antiguos eran los datos y mucho más frecuentes en los meses de verano (precisamente cuando las temperaturas debían ser más altas).

Lógicamente contactó con el Instituto Meteorológico que le envío los datos y le aclararon el misterio. La estación era un pequeño punto desatendido que en la actualidad tenía comunicación remota, pero antiguamente dependía de que el funcionario de turno se pasara por la estación y tomara nota de los datos, llevándolos a la central donde se registraban. Cuando el paisano enfermaba o estaba de vacaciones, nadie apuntaba la temperatura y el dato quedaba en blanco. Al parecer, cuánto más antiguos eran los datos, menos cuidado se tenía en enviar a otra persona a tomar la medida si el encargado fallaba. Al pasar a ficheros informáticos los datos históricos, estos días sin medidas quedaron en blanco, y de forma inadvertida, el fichero de la hoja de cálculo los transformaba en “ceros”.

Conocido el origen del problema, se podía solucionar bien ignorando los días sin medida, bien apuntando la media de días anteriores y posteriores o incluso desarrollando un algoritmo más complejo.

Ahora bien, como resulta evidente, todo esto fue posible gracias a que se disponía de las medidas originales (los “datos brutos”) y no medias ya procesadas vayausté a saber cómo.

Naturalmente, nadie puede asegurar que en algún caso haya ocurrido algo parecido con los datos del CRU, pero a falta de datos brutos, tampoco nadie puede asegurar lo contrario.

Ijon Tichy
Ijon Tichy

Profesional de la Energía desde hace 25 años, con especial dedicación a Cogeneración y Renovables, motivo por el que conoce bien las miserias que han conducido al sector al desastre actual.
El avatar no es casual. Procura seguir la inteligente máxima de Manolito ¿Cómo puede decir que es lindo si no sabe cuánto cuesta?

Artículos: 69

15 comentarios

  1. Gracias Gabriel por tu aportación.

    Como bien señalas hoy se escanea y se guarda en formato electrónico y antes como fotocopia, pero no se destruyen datos brutos.

    Salvo que uno sea muy malo como científico o simplemente un delincuente que trata de hacer desaparecer las pruebas de su crimen.

  2. Como (humilde) científico, me parece absolutamente de locos. No hablo del uso de modelos de caja negra que solo unos pocos tocados por el dedo de Dios conocen (o el gato que está dentro). Hablo de que eso de eliminar los datos brutos… ¡por Dios! ¡Pero si casi nadie hace eso! Yo trabajo más en el campo que en el laboratorio, pero el cuaderno de campo se fotocopia y se guarda (y el original también); se escanea y se guarda en un dvd, o la entrada de datos originales permanece SIEMPRE como un archivo excel o texto.

    Yo, personalmente, NO ME CREO que hayan destruído esos datos. Es IMPOSIBLE que desconocieran la trascendencia de los datos brutos. Y es IMPOSIBLE que el mínimo sentido de la prudencia no les haya recomendado conservarlos. Sobre todo teniendo tal cantidad de medios materiales, ¿tanto cuestan unos cd’s para archivar toda esa información en algún armario? ¡Venga ya! ¡¡¡¡Si no tenéis canon!!!

  3. Gracias Catalina.

    Tu intervención confirma una vez más que cualquier persona con una mínima experiencia real científico-técnica en estos asuntos ha de ser escéptica. Salvo casos perdidos de fe cuasi-religiosa, claro está.

  4. Por si sirve para ilustrar, yo habitualmente trabajo con temperaturas y me he encontrado con anécdotas de todo tipo. Cuando me tocó hacer mi trabajo de clima para la Uni (agronomía), todavía no se estilaban los ordenadores. Como los bedeles del Instituto Nacional de Meteorología eran unos listillos y se cobraban la fotocopia a 25 pesetas, la dirección decidió que la mejor solución era prohibir las fotocopias y allá que me llevé a los coleguis de la movida madrileña a copiar datos a mano. Señores: series de 15 años para temperaturas y de 30 para pluviometría. Datos mensuales y diarios según qué variable. Durante la Guerra Civil ¡faltaban todos!. Y esto para estudios muy locales y de andar por casa, y a este lado de los Pirineos.

    Estudiando el estado límite de aborto de los guisantes (cosa que existe y depende mucho de la temperatura) más recientemente, para un organismo público de investigación, la cosa no mejoró mucho. Aparte de que el becario envidioso de turno con el que compartía el invernadero cambiaba continuamente la temperatura del termostato a la que saltaba la calefacción, el comportamiento de mis guisantes era radicalmente distinto del de los de la primera parte del ensayo, que había llevado otra persona el año anterior. ¿Cambio climático?. Comparando temperaturas interior/exterior resultaba que cuanto más frío hacía fuera, más calor hacía dentro del invernadero: el año anterior pusieron del data-logger debajo del chorro de aire caliente de la calefacción. Me volví loca y conseguí varias regresiones para «arreglar» el asunto, pero tratándose de un organismo serio, prefirieron abandonar el experimento.

    Las extrapolaciones de temperaturas a partir de anillos de árboles o de núcleos de hielo me dan bastante que pensar (y que reir). Los datos brutos hay que buscarlos en las mismas fuentes de donde los obtuvo el CRU. No creo que hayan desaparecido para siempre, pero es una buena currada. Pienso que es más grave la pérdida de tiempo de los que hayan iniciado otras investigaciones basándose en los artículos de estos señores.

  5. Juano, y si no es por lluvias, pues será el calor que resecó la junta de una manguera que se rompió. Por excusas viles que no quede.

  6. Hola Currela! Como apunta JFM, incluso en la época de los floppys, tampoco era tanto espacio.

    Suena a burda excusa, como poco (a ocultación de pruebas de fraude multimillonario, como mucho).

  7. Manin, los del GISS y otros también están en tela de juicio, por ejemplo, los del GISS, nadie sabe como cocinan los datos, y sorprendentemente esa cocina siempre hace que vayan al alza, incluso las temperaturas del pasado.

  8. Malpensados. Lo que pasa es que mandaron el cd a la SGAE para demostrar que no estaban pirateando a Victor Manuel ni a Ramoncín a ver si les devolvían el canon. Al final la SGAE se quedó con el cd y con el canon…

  9. Hagamos un calculo. 50 años = 18,000 dias. 5 medidas diarias = 90,000. Las ponemos en flotante simple precision (4 octetos). 360K. O sea que toda la actividad de la estacion meteologica desde sus origenes cabia en un disquete de los principos de la informatica.

    En el año 2000 la capcidad de un disco mediano era de unos 20Gs o sea que cabian las mediciones por cincuenta años de cincuenta mil estaciones meteorologicas, cifra que se puede como minimo doblar con una compresion estandard o sea 100,000 estaciones. Cierto que hoy en dia España por si sola tien unas dize mil pero cual era la densidad hace cincunta años? Cuantas estaciones habia en el Congo?

  10. Cada vez que hay una inundación en Tenerife todas las empresas que tienen una inspección casualmente llevaban la contabilidad en algún despacho inundado arrasado por el agua…
    Cosas del calentamiento global 😉

  11. Querido Ijon,
    Real como la vida misma. Y estoy seguro que el caso que describes es más habitual de lo que pensamos.
    Sobre los datos del CRU, tengo para mí que la «pérdida» de los datos en bruto no es casual. En UK se toman muy en serio la separación de poderes y un juez es muy capaz de procesar y enchironar a los responsbles del CRU por malversación de fondos públicos (no tengo que recordar los presupuestos astronómicos que manejaban estos «artistas», presupuestos que en condiciones normales, es decir, sin alarmismo climático, no habrían ni olido). Me suena más a destrucción de pruebas para evitar demandas que a expurgo del archivo del centro. De todos modos, ¿cuánto podrían ocupar todos los registros en bruto, una llave usb de 1GB, un par de DVDs de datos o un disco duro de 500GB?. ¿A quién quieren hacer creer que han destruido los datos «por falta de espacio»?.
    Pero sobre todo, ¿no se podrían reconstruir los datos en bruto a partir de los antiguos registros de los observatorios que originalmente aportaron los datos?. Me suena que no debe ser tan difícil volver a recopilar dichos datos. Claro que igual no interesa, por que se pondría de manifiesto que el maquillaje del CRU ha sido muy burdo y pondría en entredicho a muchos.
    Saludos,

  12. Y seguramente, los «científicos» de las grandes instituciones usaran programas estadísticos serios, pero ¿Y el pequeño observatorio que les envía los verdaderos datos originales (los «datos brutos»)?

    Y, en cuanto a la «perdición», en efecto, es raaaaaaro, raaaaaro.

  13. Los programas de estadistica seria como SAS or R tienen la nocion de «missing value» que es ignorada automaticamente cuando calculas medias o medianas.

    De todas maneras ahondo en el articulo: tanto para el informatico como el estadistico es pecado mortal no guardar los datos brutos.

    Y los datos «perdidos» cabian en un solo disco (de los de entonces) de un voulmen fisisco inferior al de una tableta de turron

Los comentarios están cerrados.