Rol del gestor de datos de entrada: el jefe de compras
Continuamos con las notas dedicadas a los nuevos roles y necesidades que están surgiendo en la gobernanza de los datos y en especial de la información geospacial que se dan cita en las fábricas de datos. Hoy le toca el turno al Gestor de datos de entrada. Este rol es el responsable de la adquisición y entrada del dato en la factoría de datos.
En anteriores notas hemos destacado algunas funciones novedosas de los roles que están vinculados con la gestión de datos, y que habitualmente son poco visibles o escasamente conocidas. Hasta el momento hemos visto la valoración económica de los datos (controller) y la curación de contenidos (bibliotecarios de datos) e incluso tímidamente los geocomunicadores.
Keywords: #Geocomunication, #Spatialdriven, #datagovernance
- Gestor de datos de entrada: Responsable de los insumos de información en las fábricas de datos
- Los datos en la industria geoespacial
- 10 Funciones del responsable de datos
- Herramientas para el gestor de datos de entrada: Documento de gestión de la entrada de datos
- Interacciones con el resto de perfiles de gestión de datos
Gestor de datos de entrada: Responsable de los insumos de información en las fábricas de datos
Hoy le toca el turno a un rol muy vinculado con la captura de datos y con funciones similares a las del jefe de compra de la industria tradicional, y que en ocasiones se refieren a ellos como equipo de operaciones. Otra vez nos encontramos con el complejo, delicado e inconcluso problema de nombrarlo. Así que de forma poco original le he denominado gestor de datos de entrada, es el rol responsable de que los datos de entrada lleguen y entren a formar parte de nuestras factorías de datos. Quizás ya exista un título mejor, si es así comentadlo, porque como siempre recordad que las notas de este blog son un borrador en beta.
Cualquier sistema necesita datos. “Dar de comer al león” no es una tarea sencilla. Para entender su papel debemos comenzar estableciendo una clasificación muy simple de los datos en la industria geoespacial.
Los datos en la industria geoespacial
Desde el punto de vista del jefe de compras o del Data manager Tenemos muchas formas de clasificar los datos que entran a formar parte de una organización impulsada por datos, pero desde la perspectiva de la industria geoespacial podemos simplificar y definir dos grandes grupos en función de su procedencia.
Clasificación según la procedencia de los datos
- Los datos de procedencia propia y sobre las que tendremos pleno control en su diseño, captura, procesado, creación de metadatos de captura, frecuencia de captura, y evaluación de su calidad entre otras tareas.
- Los datos de procedencia ajena, que son aquellos que son propiedad de otro, de un tercero. Esta información la obtenemos ya procesada para nosotros por un tercero ajeno ajeno a la propia organización, o al menos a nuestra factoría de datos.
Clasificación según el origen de los datos
Por otro lado tenemos el origen. De forma muy básica, el origen puede ser:
- primario cuando implica la captura sobre el terreno, o sobre un sensor como en Iot o teledetección, o en big data,
- secundaria cuando se refiere al dato obtenido a través de un modelo algoritmo.
Distinción entre origen y procedencia de los datos
El origen está vinculado a cuestiones de carácter técnico, calidad de los datos, formatos, entre otors, mientas que la procedencia suele estar más vinculada a cuestiones de índole jurídico, sobre propiedad del dato, obligatoriedad de su uso, o efecto del dato.Procedencia y origen no deben ser confundidas. El origen se enfoca a describir aspectos vinculados a la obtención del dato, su linaje. La procedencia a quien lo administra, lo ha capturado y es su propietario.La confusión suele venir porque en muchas ocasiones utilizamos el origen para describir quien tome el dato por primera vez.
Un par de ejemplos puede ayudar a aclarar estos conceptos. Si utilizamos un sistema GNNS o un método topográfico clásico para tomar las coordenadas de un punto, estaremos ante una fuente de datos cuyo origen es primario, vinculado al terreno, que puede proceder de nuestra propia organización o de otra. Otro ejemplo muy habitual. Si utilizamos el resultado de un modelo estaremos ante una fuente secundaria, ya elaborada, cuyo origen es el modelo, con independencia de donde proceda. Los datos que hemos comentado en los ejemplos pueden compartir la misma procedencia, nuestra organización, pero tener distinto origen.
Los costes de los datos según origen y procedencia
Las fuentes de procedencia propias tienen habitualmente un coste de adquisición mayor que las fuentes de terceros. Aunque esto no es una norma general. El motivo es que las operaciones secundarias tienen habitualmente asociados costes ETL (Extract, Transform and Load) y pueden tener asociada licencias o precios de uso. Además los datos propios cuando son incluidos en las estrategias de datos de las organizaciones comienza se ofrecer rendimientos decrecientes de escala .La valoración económica de los datos mediante IRP (least cost) es una de la herramimenta de trabajo para seleccionar métodos de captura.
Como todo proyecto o ingeniera del proceso también cada tipo de datos tiene su tiempo de captura y procesado que deberemos tener presente en los cronogramas, diagramas de Gant o en la herramienta que usemos de secuenciación o programación del flujo de datos.
10 Funciones del responsable de datos
La función del responsable de los datos de entrada es la gestión de los datos que entran en la factoría de datos. Sus funciones no son triviales y son necesarias para que el sistema entre producción y sea sostenible. Las principales misiones está vinculado a las siguientes tareas de la fabrica de datos
- Contribuir a Seleccionar fuentes de datos propios o de terceros.
- Contribuir a fijar qué datos y cuantos datos hay que tomar o es posible capturar, así como su actualización para que los modelos funcionen y su a su relevancia en la toma de decisiones.
- Diseñar la captura de los datos primarios y secundarios, mediante la planificación de los medios, y métodos que detallen los procedimientos mediante los que van a ser capturados, y su calidad para garantizar las conformidades del control, y los formatos de almacenamiento para que integren en el sistema.
- Evaluar, controlar y valorar la calidad
- Colaborar en la gestión de metadatos
- Evaluar los costes de los datos de entrada y su gestión para minimizarlos.
- Divulgarla eficacia del plan de captura. No sólo sus costes sino también su huella ecológica para la RSC.
- Monitorizar el flujo de entrada
- Detectar amenazas sobre los conjuntos de datos existentes
- Identificar oportunidades de nuevos datos
Las funciones más criticas del gestor de datos de entrada en la fábricas de datos son monitorizar el flujo de entrada, detectar amenazas sobre los conjuntos de datos existentes e identificar oportunidades de nuevos datos Clic para tuitear@orbemapa
Herramientas para el gestor de datos de entrada: Documento de gestión de la entrada de datos
Hay una herramienta imprescindible para el gestor de datos en la gobernanza de datos. De este documento se habla muy poco, tanto que incluso no tiene nombre. Le vamos a denominar documento de gestión de la captura de datos o de los datos de entrada. Pude estar plasmado en una hoja de calculo, una tabla o un documento de word. Incluso algunos simplemente lo tiene en su cabeza sin que este recogido físicamente en ningún sitio
Monitorización del flujo de entrada
En el documento están descritos los metadatos, de las fuentes primarias y secundarias de entrada en el sistema, especialmente la información sobre el coste linaje y calidad.
Sobre esos datos se identifican los métodos y procedimientos y operaciones que hemos visto en las funciones del gestor de datos. De manera concreta las que tiene que ver con la selección, captura, y mantenimiento de datos propios y ajenos.
Se caracterizan la intersección de la operación y conjunto de datos en términos de rendimientos y costes. habitualmente lo expresamos en la ingeniería en gráficos de control con funciones de distribución, limites superiores e inferiores como en cualquier otra factoría.
Amenazas y oportunidades
Otra información de interés a recabar es la que describe la fuentes de datos desde la perspectiva FAIR. cómo de fácil es acceder y encontrar la fuente , cual es su grado de interoperabilidad y que restricciones tiene en su reutilización (FAIR). La plantilla del programa H2020 puede ofrecer ideas al respecto.
Relación con el plan de gestión de datos
EL plan de gestión de los datos de entrada es en ocasiones una parte del plan global de gestión de datos de la fábricas de datos. En la actualidad, existen algunas herramientas como DMP para gestionar el plan global de datos aunque están más orientadas al ámbito del investigación que al de la industria.
Interacciones del gestor de datos de entrada con el resto de perfiles de gestión de datos
Este perfil requiere de conocimientos muy variados desde habilidades matemáticas y estadísticas, topográficas y geodésicas, pasando por económicas para valorar los datos, informáticas en bases de datos, operaciones ETL, y herramietnas de gestión de proyectos sin olvidar los conocimientos jurídicos sobre la licencias de datos. Los conocimientos anteriores son necesarios para desplegar sus imprescindibles habilidades sociales y capacidad de negociación. Es un perfil muy transversal en la gobernanza de los datos que interacciona con prácticamente todos roles de dentro y fuera de la organización para que su trabajo sea un éxito.
- Con el controller en las cuestiones de costes
- con los bibliotecario de datos en búsqueda de fuentes secundarias y en la gestión de metadatos
- con el data analyst, Data mining analyst, Business Data Analyst para conocer la relevancia de las variables en los modelos, los análisis de incertidumbre y sensibilidad de los modelo para poder elegir las variables de entrada
- con los perfiles de IT de administración de datos stewarding y de la arquitectura del sistema para armonizar los datos con los formatos y protocolos de comunicación.