Clasificaciones de los datos según su linaje
Vamos a seguir hablando de las clasificaciones de los datos menos conocidas que se están proponiendo desde la industria. En la anterior nota titulada ¿tus datos te hablan? comentábamos algunas de las tipologías que se han desarrollado desde el punto de vista funcional de los datos, es decir, aquellas clasificaciones que destacan el papel que desempeñan los datos en la organización.
Hoy le toca el turno a las clasificaciones que se fijan en el linaje de los datos y que contribuyen a documentar su proceso de transformación dentro de la fábrica de datos.
Linaje y datos
El linaje es uno de esos metadatos imprescindibles, incluso obligatorio, en la mayor parte de normas y estándares, si bien, cada propuesta de metadatos profundiza en el concepto de linaje de manera más o menos exhaustiva.
El ejemplo que ofrece la IDEE a este respecto es muy clarificador, de 10, distingue los tres elementos habituales del linaje: la declaración, los pasos de la trasformación y las fuentes referidos al mapa topográfico nacional a escala 1:25.000.
Declaración: | El Mapa Topográfico Nacional a escala 1:25.000 digital constituye la serie básica de la Cartografía Oficial de España y la fuente de datos para su creación es un vuelo fotogramétrico a escala 1:30.000, cuyo año depende de cada hoja y va desde 1999. |
Pasos del proceso: | Mapa Topográfico Nacional 1:25.000 Pasos del Proceso: 1º Selección de geometría que representa entes del mundo real, desechando símbolos puntuales, lineales, superficiales y todo aquello cuyo fin exclusivo es el trazado del mapa: cuadrícula, leyenda, etc. 2º Tratamiento geométrico: – eliminación de puntos superfluos y repetidos; – eliminación de bucles y vueltas atrás; – eliminación de líneas repetidas, incluidas y solapadas; – resolución de intersecciones entre elementos; – resolución de anclajes; detección y resolución, si procede, de extremos libres; – unificación de elementos del mismo código y nombre dentro de tolerancia; – tratamiento de elementos perimetrales; creación de los contornos relativos a casos de población; – y case geométrico entre hojas. 3º Tratamiento semántico: codificación y asignación de nombres. 4º Cases entre hojas limítrofes Procesos realizados por el Instituto Geográfico Nacional en 1998-01-01 |
Fuentes: | Para la realización del Mapa Topográfico Nacional 1:25.000 se han utilizado las siguientes fuentes. – Vuelo fotogramétrico, formación cartográfica y procesos de campo. – Bases de datos de Geodesia del IGN. – Base de datos de Líneas Límite (BDLL) del IGN. |
Clasificaciones de los datos según su linaje
Una vez definido el linaje, podemos pasar a describir qué tipologías de datos nos podemos encontrar analizando las fuentes de datos. Dejando a un lado las calsificaiones más habituales que hacen referencia a la localización del dato o el método de captura empelado, nos vamos a centrar en dos atributos relacionados entre sí: el origen de los datos y su procedencia.
El origen de los datos
El origen de los datos está vinculado con la cuestión de donde fueron producidos. Esta perspectiva proporciona para describirlos, entre otros criterios de clasificación, el de la propiedad de los datos. Distingue datos propios o internos y ajenos o externos.
Un aspecto interesante de los datos propios, es que habitualmente podemos controlar su frecuencia, resolución, precisión, y que a menudo tendremos perfectamente descritos en el plan de captura de datos que hayamos diseñado para ellos.
En núcleo español de metadatos el linaje Se corresponde con la componente cualitativa de la calidad e informa sobre los eventos o fuentes usados en la construcción de los datos especificados en el ámbito o declaración de falta de conocimiento del linaje.
Un mismo conjunto de datos puede ser a la vez propio o interno pra la organización cuando ostentamos la propiedad sobre el conjunto de datos y ajenas o externos cuando son elaboradas por otros. Recordemos que propiedad y posesión son conceptos distintos, un ejemplo ayuda a aclarar ambas cuestiones. Se puede poseer unos datos, como consecuencia de algún acuerdo o licencia de uso de los mismos con la cual seremos poseedores con las limitaciones que estabelzca del acuerdo o licencia, pero no por ello ser propietario de ellos.
La procedencia de los datos
Si no fijamos en la procedencia de los datos estamos acercándonos al proceso de elaboración que se incluye en el linaje. La pregunta es ¿de dónde viene los datos? En este bloque el grado de elaboración o cocción clasifica los datos en fuentes primarias y secundarias. Esta clasificación no es nueva, las fábricas de datos han complementado la visión sobre las fuentes primarias y secundarias que nos proporciona la historiografía.
Las fuentes de datos primarias son aquellas que están situadas próximas al objeto que miden o describen y son recogidas por primera vez, por este motivo su grado de elaboración suele ser bajo, muy próximas al instrumento de medida. Por este motivo nos referimos habitualmente a ellas como datos crudos, están cerca del objeto o del hecho geográfico que estamos midiendo o describiendo.
En el lado opuesto de la balanza tenemos las fuentes secundarias son consecuencia de la elaboración de datos a partir de fuentes primarias, son por lo tanto datos cocinados mediante índices, algoritmos, o formas entre otros procesos de cocción involucrados.
Ninguna clasificación es perfecta, y está en concreto además no lo pretende, puesto que se basa en el concepto borroso de grado de elaboración. El motivo es que en sentido estricto casi todas las fuentes son secundarias, ya que los datos crudos deben tener algún grado de elaboración para asegurar su calidad y puesta en servicio. Algunos ejmplos son los procesos de agregación temporal espacial o de atributos, la validación, el relleno de las series, entre otras. Por lo que la existencia de tratamientos geométricos y semánticos no permite distinguir por sí solos si estamos ante fuentes primarias y secundarias. Necesitamos considerar la cercanía al objeto medido y concoer si los datos son recogidas por primera vez. Un ejemplo para aclarar este concepto: una red de parcelas, una red de sensores, una colección de encuestas, en definitiva todo aquello que midamos u observemos sobre el terreno, sobre el cliente sobre el proceso o sobre el hecho las calificamos habitualmente como fuentes primarias aunque requieran de algún grado de elaboración. Si emplemos alguna pasarela de acceso sobre este tipo de datos seguirán siendo fuentes primarias, aunque su origen sea ajeno a nosotros.
Radiografía del linaje de datos
Resumiendo, el linaje ubica los datos de entrada que usamos en nuestra fábrica de datos con respecto a las dos tipologías. Así tenemos fuentes:
- Primarias y propias. Son datos internos habitualmente costosas de obtener pero las que más suelen contribuir en la construcción del valor final del producto. Los aspectos económicos de coste y beneficio suelen ser importantes así como la automatización de su captura.
- Primarias y ajenas.Son datos externos cuyo coste dependerá de los acuerdos de licencia logrados y de las operaciones ETL necesarias para su integración. Suelen ser críticos para la rentabilidad de la fábrica de datos, por ese motivo debe vigilarse la dependencia sobre ellos. Habitualmente requieren el desarrollo o adopción de pasarelas de acceso.
- Secundarias y propias Son fuentes internas habitualmente “grises” no muy accesibles, ni visibles, a pesar de ser producidas por nuestra organización. Requieren implementar algún tipo de protocolo o procedimiento de captura y poner en marcha algún sistema de transformación digital.
- Secundarias y ajenas. Son externas, las más habituales y accesibles, generalmente su coste depende exclusivamente de las operaciones ETL y de un buena conocimiento del conjunto de datos disponibles.
Al ubicar nuestros conjuntos de datos en estos tipos podemos dibujar un grafo para conocer las dependencias de nuestra fábrica, comprender la cadena de valor, comparar distintas fábricas y desarrollar distintas estrategias de gestión.
Utilidad de las clasificaciones de datos
A estas alturas más de uno se preguntara para que sirve todo esto de las clasificaciones funcionales y las basadas en linaje que se han molestado en proporcionarnos la industria, y por qué he querido detenerme en ellas en estas dos notas del blog. Es un interés puramente práctico.
Las clasificaciones no convencionales e informales sobre los tipos de datos nos permiten disponer de una radiografía del tipo de datos con el que se alimenta, nuestra fábrica de datos y que son producidas por ellas. Su uso por el director de la fábrica de datos es imprescindible para hacer que el plan de gestión de datos sea eficaz y eficiente.
Incorporar las clasificaciones en la gestión de los datos tiene las siguientes utilidades:
- Contextualizar el valor del dato e incluir aspectos económicos
- Vincular los datos y metadatos con su gestión [2]
- Monitorizar o hace un seguimiento de la fábrica de datos mediante la construcción de cuadros de mando integral, tableros de control, alertas e informes de estado
- Apoyar la toma decisiones gerenciales necesarias para formular estrategias sobre los datos
Algunas cuestiones a las que ayuda a responder las clasificaciones o tipologías de datos van más allá de las habituales preguntas.
Al disponer de un mapa de nuestros conjuntos de datos caracterizados por estas clasificaciones podemos observar las semejanzas entre los conjuntos de datos y su vinculación para producir el producto perseguido en nuestra fábrica de datos.
Cuestionario: ¿La clasificación de tus datos te ayuda a responder a las siguientes cuestiones sobre la gobernanza de la fábrica de datos?
- ¿Cuándo firmar acuerdos?
- ¿Cuándo producir datos?
- ¿Qué datos hay que producir?
- ¿Con que calidad, frecuencia o coste?
Algunas cuestiones a las que ayuda a responder las clasificaciones de datos van más allá de las habituales preguntas ¿Cuándo firmar acuerdos? ¿Cuándo producir datos? ¿Qué datos hay que producir? ¿Con que calidad, frecuencia o coste? Share on X
@orbemapa
Al disponer de un mapa de nuestros conjuntos de datos, caracterizados por estas clasificaciones, estamos dando un paso hacia la gestión esbelta (lean) de la fábrica: podemos observar las semejanzas y vinculación entre los conjuntos de… Share on X
@orbemapa