Mineros de datos

Éste interesantísimo artículo del Wall Street Journal ($) explica cómo una serie de compañías farmacéuticas están empleando minería de datos en las historias clínicas de pacientes para valorar el uso de determinados medicamentos en vez de emplear los carísimos y clásicos análisis clínicos.

Es decir: puesto que hay medicamentos legales que ya se recetan para otros usos, es probable que puedan encontrarse resultados del empleo de ese medicamento para otras situaciones y casos. El artículo explica los resultados obtenidos, pros y contras, problemas potenciales, etc. etc. Un paso más en el fascinante mundo de la era de gestión de datos.

Mientras leía, mi mente se fué por otro sesgo. Pensé en que hay que construir el modelo de datos y capturarlo de archivos de historias clínicas que vete a saber cómo están hechos. Pedir los permisos a quien los tenga, sacarlos de donde los tenga, limpiar todo eso y, bingo, tener un set de datos al que, como todo el mundo sabe, pasarle una serie de algoritmos de rigor es algo que ya cuesta más bien poco.

No hacía muchas horas que me había tomado un café navideño con un amigo sentado en una especie de caja con un gazilion de datos de una empresa con un gazilion de clientes y transacciones. Yo le explicaba lo que mi modesto algoritmo hacía en una prodigiosa arquitectura de sistemas acorde con el estado del arte de la computación.

Cariñoso, no dejó de interesarle en absoluto. Pero pronto me advierte: «es muy genérico». En suma, él tiene todos los datos, así que meter una herramienta por meterla no le resuelve nada.  A no ser que, quien lo haga, ya tenga sus partes pudendas peladas en lidiar con un tipo de problema y de estructuras de datos concretos para convertir en tarea de hombres normales extraerlos, darles los martillazos oportunos y, zas, pasar el algoritmo y empezar a analizar.

Ve tan poco valor en otra herramienta más que me aclara que cuando vienen a verle las consultoras de la lista corta mundial les pide experiencia directa en un problema, en encontrar y dejar los datos listos para trabajar porque, si no, se lo hace él con su equipo. La conclusión es terrible para quien está en la fase previa incluso al early adopter. Me dice: «es complicado para las consultoras, porque los datos los tenemos nosotros y porque sin datos no puedes aprender».

Otro amigo, que está en el lado de los que suelen ser proveedores de los amigos del café, me dice que el estado de los datos es una pesadilla. Y que ni se plantea decirle al cliente que le va a cargar su particular gazilion de horas sólo para tener los datos en estado de revista. Y que, cuando lo están, pues para qué pagar por el software de otro cuando las librerías clásicas al alcance de todo data scientist están a la disponibilidad de cualquiera.

En la entrega de diplomas de la última promoción del Programa de Tecnologías Big Data que dirige en Deusto mi amigo y mentor Alex Rayón, hace algunas semanas más de estas anécdotas, alguien preguntó a la audiencia cuál era el estado de los datos. Medio en broma medio en serio se dijo que estaban hechos una porquería. En las conversaciones del cóctel posterior algún avispado estaba convencido de que en las empresas que todos conocemos, el maldito GAFA o el maldito FAANG, habían nacido ya por y para los datos y que resolver lo más crudo del asunto, ese dónde están los datos, era pan comido. No como para los demás. Y que así nos iría. Vaya.

Felices fiestas.

Esta entrada fue publicada en Big Data. Ir al permalink.Tanto los comentarios como los trackbacks están cerrados.