Los metadatos son descripciones de los conjuntos de datos y de los servicios sobre los datos.
Los metadatos identifican y clasifican el recurso de información para el que se ha creado el metadato, y determinan su localización geográfica y su referencia temporal, así como la calidad y validez de los metadatos, la conformidad con las normas de aplicación sobre la interoperabilidad de los servicios y conjuntos de datos espaciales, las restricciones de acceso y uso, y la organización responsable del recurso. También son necesarios elementos de metadatos relacionados con el registro de metadatos mismo a fin de controlar que los metadatos creados se mantengan al día, y para identificar la organización responsable de la creación y el mantenimiento de los metadatos
Fuente REGLAMENTO (CE) No 1205/2008 DE LA COMISIÓN
Una breve crónica sobre la difusión de conjuntos de datos
La publicación de libros y manuales eran el canal más frecuente para divulgar modelos, resultados y conjuntos de datos durante las últimas décadas de siglo pasado. Estos manuales explicaban en detalle la estructura de las ecuaciones, los algoritmos, sus hipótesis, los datos y los resultados. Todas estas informaciones se ofrecían en interminables ya la vez útiles tablas en papel. Estos trabajos han sido manuales de referencia para aquellos profesionales que utilizaban determinados conjuntos de datos.
La forma de publicar datos y resultados ha cambiado, para muchos este canal y genero de divulgación está obsoleto. La digitalización, el marco editorial de publicación científica, la tecnología GNSS, los sensores remotos, el GIS y las bases de datos unidas a la web 2.0. han permitido crear otros canales y géneros para intercambiar información y compartir experiencias con otros profesionales sobre el uso y campo de aplicación de los conjuntos de datos.
La fría automatización de los metadatos
En este panorama los metadatos se han convertido en el lenguaje imprescindible y normalizado para describir y descubrir los conjuntos de datos. En este proceso hemos ganado mucho. Tenemos más datos disponibles, hemos reducido los tiempos de procesado y estamos consiguiendo que sean interoperables. Dejando a un lado el debate sobre si los metadatos son para las máquinas o los metadatos son para los humanos, lo que está claro es que los metadatos son una herramienta de trabajo indispensable en la creación, y gestión de las fábricas de datos y el vocero indispensable en la reutilización de los datos.
Asistamos a diario al resultado de un intenso trabajo en la difusión y divulgación de datos en los cuales los metadatos desempeñan varias funciones. Entre las más destacadas tenemos caracterizar y elegir datos, pero no es la única, de los productos y servicios creados alrededor de los datos es también una de sus finalidades. Algunos ejemplos de explotación de los metadatos los podemos encontrarlos en el mercado editorial que hace propuestas en forma de:
- Repositorios de datos
- «data papers» en revistas científicas
- Atlas basados en la publicación y visualización de datos
- Catálogos de datos Infraestructuras de datos espaciales
- Periodismo de datos acerca las historias y narrativas alrededor de los datos al gran público.
Geografía de los metadatos
La popularidad de los metadatos y de los conjuntos de datos comparten el mismo patrón estacional con un mínimo que coincide con las navidades, si bien a partir del verano de 2016 los datos han ido ganado ventaja sobre los metadatos. En los siguientes mapas se muestra la popularidad de los metadatos en los últimos 5 y un mapa comparativo de aquellos países donde el interés por los metadatos ha sido superior al interés por los datos. Si nos centramos en los últimos 12 meses el interés por los metadatos ha sido superior al interés por los datos solo en nueva países: Finlandia, Canadá, Australia, Chequia, Bulgaria, Suecia, Noruega, Serbia y Ucrania.
Mapa de popularidad de los metadatos en el mundo
Mapa comparativo de popularidad de metadatos y conjuntos de datos
Limitaciones de los metadatos
La creciente disponibilidad de datos crea la necesidades de comparar, elegir y evaluar datos, para ello se requiere de perfiles profesionales con habilidades y competencias específicas en la gestión de los datos de entrada y la puesta en marcha de políticas de datos como ya esta sucediendo en el ámbito científico y gubernamental. Los metadatos, aunque imprescindibles en esta tareas no son por si mismos la solución universal.
El mercado o ecosistema de los datos nos está mostrando algunas de las habilidades que debemos aprender y ejercitar para conseguir que los datos alimenten la cadena de producción y creen valor de manera eficiente. Las habilidades proceden de disciplinas dispares: economía, informática, sociología, estadística, ingeniería, biblioteconomía, cartografía, geomática o legal.
Curación de datos
Sin embargo, algo nos habíamos dejado en este camino de automatización y divulgación. Los metadatos son fríos y la divulgación crea frecuentemente cajas grises y en ocasiones cajas negras. Una posible solución podemos encontrarla en retomar la curación de contenidos sobre los datos y fusionarlos con las herramientas que tenemos hoy en día.
Quizás llegue el día en que la web semántica y los datos enlazados hagan esta actividad innecesaria, pero todavía nos falta por recorrer un buen trecho en esta dirección. Mientras tanto los productores de datos pueden inspirarse en algunas de las bondades que ofertaban de esos viejos manuales. Esos manuales hacían que la información, los datos y sus algoritmos, no solo estuvieran disponibles sino también fueran accesibles de forma atractiva para su reutilización. Su secreto era no solo enseñar la cocina en profundidad sino también ofrecer un contexto sobre los datos, los modelos y sus posibles aplicaciones, en definitiva, enseñaban a cocinar.
Comunidades verticales
Inicialmente las comunidades de datos más activas han sido las comunidades verticales. Las comunidades verticales proliferaron como un medio de acercar un conjunto de datos especifico y concreto al usuario.
El contenido de estas plataformas, creadas por los productores de los datos, ha ido evolucionando con el tiempo. Hoy en día las secciones con las que cuentan son variopintas y no hay un esquema unánime, pero es habitual que propongan funcionalidades relacionadas con los datos (buscadores, catálogos, descargas, herramientas, visualizadores), el aprendizaje, la investigación, la divulgación, las políticas de difusión y canales de dialogo con la comunidad. https://sentinel.esa.int/web/sentinel/home omunidades creadas por entidades que tiene entre sus principales misiones la producción de datos. Labor que desarrollan habitualmente instituciones estadísticas. En el ámbito internacional tenemos por ejemplo a World bank , en la administración publica española INE , portales de administraciones públicas de otros países las Infraestructuras de Datos Espaciales , institutos de investigación como ECWMF o misiones como Sentinel del programa Copernicus.
Comunidades que ofrecen acceso a los datos de la actividad que registran sus plataformas. Encontramos ejemplos procedentes de la actividad comercial, empresas como Facebook , Google, operadores de telefonía como Teléfonica , idealista , Mastercard. Estos no son los únicos actores otros ejemplos proceden del sector periodístico como puede ser el caso de la hemeroteca de La vanguardia, o del sector de la comunicación digital BuzzFeed o del periodismo de datos como FiveThirtyEigth.
Comunidades horizontales
En una fase posterior y habitualmente impulsadas desde el sector de los usuarios o consumidores de los datos aparecen las comunidades horizontales. Las comunidades horizontales se agrupan alrededor de un campo de trabajo común y ofertan enlaces a distintas fuentes y temáticas, en ocasiones las describen comparan y discuten sobre su utilidad y las herramientas, el código o los algoritmos necesarios para la utilización.
Las principales misiones de las comunidades horizontales son ofrecer la información necesaria para permitir la selección del conjunto de datos adecuado a un trabajo concreto y disponer de una catálogo, directorio o colección de enlaces y repositorios de datos que son de utilidad al campo de trabajo en el que este centrado la comunidad.
¿Por qué han surgido estos sitios? Las principales causas de la aparición de las comunidades horizontales podemos hallarla en el fenómeno del duelo entre base de datos que describe la proliferación de conjuntos de datos sobre los mismo ámbitos territoriales o temáticos. Las bases de datos compiten y se vigilan entre ellas para captar usuarios. Los usuarios necesitamos destrezas para seleccionar y elegir entre ellas. Otra de las causas es la invisibilidad de una web saturada de contenidos donde los algoritmos de los buscadores generalistas de información en Internet han mostrado su incapacidad para realizar esta tarea. Ambas motivaciones son algunos de los escollos que tiene que hacer frente la reutilización de datos.
La suma de las motivaciones descritas ha impulsado por los tanto la creación de comunidades horizontales que inicialmente se han articulados en foros . Para pasar a crear portales cuando alcanzan cierto nivel de madurez.
Al igual que sucede con las comunidades verticales todavía es incipiente los trabajos de clasificación de las comunidades horizontales
- Catálogos de la búsqueda de datos: https://data.world/
- Orientados a la formación, herramientas o recursos en sentido amplio como Kaggle , Quandl
- Mixtas. En estas plataformas se presentan varias funciones. Un ejemplo en esta última línea la tenemos la web IUFOR DATA recientemente presentada por IUFOR .
¿Para qué sirven los metadatos?
He ofrecido un rápido repaso a una visión personal sobre los metadatos basada en buscar repuestas a la pregunta ¿cuándo cobran vida los metadatos? El interrogante planteado en esa nota no deja ser una cuestión derivada de la pregunta que titula esta conclusión ¿para qué sirven los metadatos?
En esta nota me he detenido en algunos de los mecanismos que nos ofertan respuestas a la pregunta. Algunos de los lectores prefirieran la contestación ofrecida por el rol técnico y estarán mas de acuerdo con que los metadatos cobran vida en el momento en el que se completan y validan. Desde la gestión de datos preferirán fijar el momento de utilidad en el instante en el que gracias a los metadatos los conjuntos de datos puedan ser encontrados, utilizados y reutilizados y actualizados. Los roles vinculados con el usuario estarán mas cómodos con la respuesta que marca el momento en el son convertidos en visualizaciones, narrativas, historias y hallazgos de interés para el negocio. Los roles orientados al gran público escogerán el momento en que los metadatos permiten que los conjuntos de datos sean utilizando distintos géneros de comunicación basadas en datos: mejores prácticas, formación, investigación, informes, reportaje, análisis, o resúmenes ejecutivos. La respuesta no es única.
Una respuesta más perturbadora está basada en considerar que los metadatos cobran vida el momento en que permiten la curación de contenidos del conjunto de datos que describen. Por lo tanto la actividad de desarrollar los metadatos es crucial: otorga visibilidad y relevancia a los datos, y como consecuencia de ello los introduce en el mercado. Los metadatos hacen visibles los datos al negocio de las bases de datos.
Desde el punto de vista de «la curación de contenidos» la calidad de los metadatos se convierte en un criterio de evaluación de los datos, Los metadatos pueden condicionar el futuro del conjunto de datos, su posible evolución, supervivencia y la continuidad de su financiación