Tipología de los datos para las fábricas de datos
En las fábricas de datos existen diferentes tipos de datos. Industria y academia elaborar clasificaciones, tipologías, taxonomías y folcksonomías alrededor de los tipos de datos que difieren mucho de las tradicionales. ¿por qué este interés?
Keywords: #Geocomunication, #Spatialdriven, #datagovernance
- Alfabetización de datos
- ¿Por qué las fábricas de datos recurren a una tipología propia para describir los datos?
- Tipologías de datos basadas en la cadena de valor de la información
- ¿Futuro de las tipologías de datos en la gestión y dirección de las fábricas de datos?
- Referencias citadas
Alfabetización de datos
Uno de los primeros pasos en el proceso de aprendizaje del trabajo con datos es conocer las distintas clasificaciones y tipologías de datos. Dominar esta competencia es clave para que los datos que obtengamos sean fácilmente utilizables y de esta manera consigamos visualizar, analizar y comunicar la información con eficacia.
Hasta aquí nada nuevo. Las clasificaciones y tipologías más conocidas están enfocadas a adquirir la habilidades necesarias para dominar la gramática de los datos, esa disciplina, a veces olvidada, que nos dice hasta donde podemos llegar con los datos, los modelos y los algoritmos y como usarlos correctamente. No todo vale cuando hablamos a través de los datos, por mucho asistente que lo permita, o por muy estética que sea nuestra cartografía, webmapping o panel de mando y control.
Definición de alfabetización en el uso de datos o alfabetización informacional
es la capacidad de leer, comprender, crear, comunicar y argumentar con datos.
En al ámbito cartográfico un ejemplo clásico de las utilidad de conocer las tipologías de datos es la elaboración correcta de cartografía temática, cuantitativa o cualitativa, en función del tipo de datos. Podemos encontrar variados y completos ejemplos en la sección del mapa del mes del Atlas nacional de España
En anteriores notas hemos visto algunos de los nuevos roles que están surgiendo alrededor de la geo-industria como los gestores de adquisición de datos, los controller, los bibliotecarios de datos. Todos ellos tiene en común una competencia educativa: comparten una destreza, un cierto grado de fluidez en el uso de datos.
¿Por qué las fábricas de datos recurren a una tipología propia para describir los datos?
Las factorías de los datos, las fábricas de datos, o las organizaciones impulsadas por datos recurren a otros criterios distintos a los tradicionales, que habitualmente están centrados en la naturaleza del dato, para construir una tipología con una novedosa mirada sobre las variables que usamos en nuestros modelos y algoritmos. Las tipologías que proponen las fábricas de datos se alejan de la convencional y académica para adentrarse de manera informal (2) en el concepto de variable dependiente o de salida y profundizar en él, extendiendo su significado. Realizar la tarea de extensión implica a la sociología de la ciencia, a la tecnología, a la economía y a los sistemas de ayuda en la toma de decisiones,
Definición de alfabetización en el uso de las infraestructuras de datos
Es la capacidad de responder de forma creativa e intervenir entorno a las infraestructuras sociotécnicas implicadas en la creación, extracción y análisis de datos
Cada fábrica de datos sitúan los datos en el contexto productivo de las factorías de datos que los crean y manipulan hasta lograr obtener información. Comienza por tanto esta tipología en el momento en el que transformamos los datos de origen y obtenemos el primer resultado de nuestros modelos y algoritmos. A partir de este momento cadena de producción y cadena de valor se funden y las las factorías describen distintos tipos de datos en función de su posición o valor en el proceso productivo del dato. Los criterios de clasificación se fijan por lo tanto en la cadena de valor que va convirtiendo y enriqueciendo progresivamente el dato. Por este motivo para utilizar estas tipologías en nutro quehacer diario implica tener definida e identificada previamente cual es la cadena de valor de nuestra factoría de datos.
¿Por qué hacer este esfuerzo de redefinición? La respuesta es simple: es necesario. Las tipologías de las factorías o fábricas de datos se basan en la segunda ley de Moody y Walsh: el valor de la información se incrementa con el uso. La gobernanza de las factorías de datos requiere de estas tipologías para gestionar el proceso productivo y ofrecer productos relevantes al usuario. Determinar cómo el dato va adquiriendo su valor, es relevante para conseguir una gestión y gobernanza del dato libre de “muda”, cercana a los postulados de la producción (3) esbelta «lean» que permita que los datos salten al mercado «Go to market» y se transformen de una materia prima «Commodity» a un bien de consumo de mayor valor.
Las tipologías de datos basadas en la cadena de valor de la información
Las distintas tipologías, taxonomías, folcksonomías y clasificaciones de datos que nos ofrece la industria varían según el diseño y desarrollo de cada factoría de datos. Un estudio sistemático debería adentrase en la definición de estas fábricas para ver cuánto tienen en común la clasificación que propone implícitamente cada una de ellas. Veamos algunas. Nuevamente sin el ánimo de ser exhaustivos.
Criterio de toma de decisiones (DSS)
Gran parte de las factorías de datos están orientadas a la toma de decisiones. En este marco algunas definiciones pioneras las podemos encontrar en 1960, en el Kernel que distingue entre inteligencia, diseño y elección o las basadas en las rutinas centrales del año 1976: evaluación, seguimiento, actuación (4). los tipos de datos según este criterios se clasifican según la posición q que ocupan en la cadena de valor del a fábrica de datos.
Criterio de vinculación con el negocio
Los tipos de datos desde la perspectiva del negocio (5) se clasifican en función de en que tipo de operación de la fábrica de datos intervengan
- Intrínsecas,
- de negocio
- de rendimiento
Criterio de la finalidad del producto resultante
El tipo de datos se clasifica según la clase de información que ofrecen en las facturías de datos. este criterio se basa en el modelo de madurez (6)(7)
- Descriptivas o información,
- Diagnostico o hallazgo
- Predictoras
- Prescriptivas o de decisión o acción o efecto
Criterio del valor del dato
La valoración económica del dato es una de las herramientas principales que puede ayudarnos a utilizar los tipos de datos en las fábricas de datos y calcular cuánto valor se añade en cada paso de la línea de montaje.
Una de las pioneras visiones de los tipos de datos según su valor económico se debe a las Organizaciones de uso intensivo de la información y el continuo de información. Desde la universidad de California, en Berkeley, Rashi Galzer proponía en al año 1993 el concepto de organizaciones de uso intensivo de datos como aquellas firmas que eran capaces de integrar la información en su estrategia de negocio y conseguir de esta manera una ventaja competitiva. Estableció (8) que para conocer el grado de uso de la información en una organización era necesario implementar procedimientos de valoración económica de la información, un indicador que permitiera evaluar los datos como un activo empresarial más. Este enfoque describe la cadena de valor del dato como un continuo, no utiliza por tanto la perspectiva discreta tan frecuente en el ámbito de las clasificaciones. Desde el punto de vista de la gestión Garnet propone información intrínseca ,de negocio, y de desempeño, que vincula con el valor en coste, de mercado y económico de la información.
Criterio del origen y procedencia de los datos
La tipología de la cadena de valor no es la única que utiliza la industria. cuando se centra en su origen y procedencia hablamos habitualmente de datos primarios y secundarios, pero eso es otra historia.
¿Futuro de las tipologías de datos en la gestión y dirección de las fábricas de datos?
Todas las tipologías de datos expuestas en esta nota comparten una misma idea: el dato es un recurso económico, sin embargo aquí no acaban las posibles tipologías y clasificaciones de los datos que nos va a ofrecer la industria. Se confeccionaran otras clasificaciones sobre los datos a medida que se profundice en el proceso industrial de toma de decisiones (8)(9) o se disponga de más experiencia en el proceso de enseñanza y aprendizaje de la cultura de alfabetización (1). Mientras tanto el ejercicio es simple podemos aplicar esta tipologías como hojas de ruta en nuestras fábricas de geodatos y geoanálisis. La trasferencia de la ciencia a la tecnología es ahora diálogo y comunicación.
Referencias citadas
Gray J, Gerlitz C, Bounegru L 2018. Data infrastructure literacy. Big Data & Society 5 doi:10.1177/2053951718786316
Beltrán G, Del Río J 2018. Comunicación de la industria geoespacial en Internet: los blogs de información geográfica
Del Río J 2015. La vía ecléctica de producción y consumo de datos espaciales. Polígonos. Revista de Geografía (27): 119-163, doi:http://dx.doi.org/10.18002/pol.v0i27.3278
Vacik H, Lexer MJ 2013 Past, current and future drivers for the development of decision support systems in forest management, Scandinavian Journal of Forest Scandinavian Journal of Forest Research 10.1080/02827581.2013.830768.
Gartner 2015. https://www.gartner.com/doc/3106719/measure-value-information-assets
Davenport T., H. and Harris, J., G. (2007). Harvard Business School Corporation. Boston, Massachusetts. 218 p
Gartner 2012. Magic Quadrant for BI platforms. Analytics Value Escalator
Glazer R 1991. Marketing in an Information-Intensive Environment: Strategic Implications of Knowledge as an Asset. Journal of Marketing, 55(4), 1-19.
Hanski J, Uusitalo T, Vainio H, Koskinen K, Kunttu S, Valkokari P, Kortelainen 2018. Smart asset management as a service Deliverable 2.0