Atrás

Concepto de calidad de datos - Parte 2

25 ene 2021

Autor: Ing. Sergio Pío Álvarez

Imagen ampliada

En el primer artículo de esta serie se sostuvo que la descripción del concepto de calidad de datos es más compleja de lo que podría parecer a primera vista, y que datos de buena calidad no es sinónimo de datos sin errores (Introducción a la calidad de datos http://bit.ly/3qnt3hH). Más aún, se mostró que la calidad de datos es un concepto multidimensional, porque son múltiples las características de los datos que la afectan, y es dependiente del contexto, porque depende no solo de los datos disponibles sino también de la tarea para la cual se los pretende utilizar. En este segundo artículo, y en los siguientes, se ahondará más en el concepto de calidad de datos.

 

Aunque la preocupación por la calidad de los datos no es reciente, se suele identificar en la década de 1960 el comienzo de su abordaje como área de estudio. En un principio fueron profesionales de la estadística quienes comenzaron a investigar la aplicación de técnicas propias de su área de conocimiento para la mejora de los datos; particularmente, se enfocaron en el reconocimiento de duplicados (algo que afecta sobremanera a las estadísticas) y a la detección de incongruencias. Posteriormente, en la década de 1980, fueron los profesionales de la administración quienes le dieron un impulso al área, cuando ya comenzaba a manifestarse la globalización y era cada vez más claro que los datos serían un factor decisivo en los procesos competitivos entre empresas y naciones. Pero fue en la década de 1990 cuando se produjo la explosión, a partir de la formidable evolución de la tecnología y la introducción de la ciencia informática en el estudio de la calidad de los datos. Los avances tecnológicos permitieron almacenar cada vez más datos, obtenidos de las más diversas fuentes y de manera cada vez más rápida y precisa, y al mismo tiempo permitieron visualizarlos, analizarlos, transformarlos, y en general, usarlos, más eficientemente. Y entonces el siglo XXI presentó un nuevo paradigma: el software y los datos dejaron de ser una mera herramienta de soporte a la toma de decisiones y se convirtieron en activos organizacionales con valor propio.

 

Durante su evolución, han existido múltiples aproximaciones a la definición del concepto de calidad de datos. Desde distintos ámbitos han surgido propuestas con diferentes enfoques. Entre ellas se destacan tres que, por separado, consideran las principales características relevantes sobre la calidad de datos: ‘adecuación al uso',‘conformidad con los requerimientos', y ‘consistencia con el mundo real'.

  • La adecuación al uso implica que un conjunto de datos es de buena calidad (o tiene buena calidad), si se ajusta al uso que se le pretende dar, es decir, si son los datos adecuados para realizar la tarea que se pretende.

  • La conformidad con los requerimientos indica que un conjunto de datos es de buena calidad si se ajusta a la especificación realizada previamente a su recolección, almacenamiento y uso.

  • Y por consistencia con el mundo real se entiende que cuanto más cercana sea la representación que hacen del mundo real (o la parte de él que pretenden capturar) mejor será la calidad de los datos. Lo usual es combinar todas esas definiciones, cada una en mayor o menor medida, según el objetivo que se pretenda alcanzar.

 

Una vez más, se observa que la calidad de datos es entonces dependiente del contexto. Pero además, se advierte también que es algo subjetivo, especialmente bajo la primera definición: según los conocimientos, las habilidades o la experiencia de las personas, un mismo conjunto de datos puede ser más o menos adecuado para un uso determinado. Una persona con más recorrido podría hacer un mejor uso de un conjunto de datos que alguien que recién comienza en su carrera.

 

Cualquiera que sea la definición que se considere sobre calidad de datos (entre las anteriores, o cualquier otra) usualmente se asume que los datos que la cumplen tienen calidad perfecta o ideal. Sin embargo, debido a múltiples factores (económicos, técnicos, operativos, conceptuales, entre otros), en el mundo real es difícil, incluso imposible, lograr una calidad de datos perfecta. Cuando no se logra la calidad perfecta se dice que existen deficiencias en los datos, y que estos son datos sucios. En este contexto, una deficiencia de calidad es cualquier problema encontrado en los datos que hace que su calidad no se ajuste plenamente a la definición elegida. Es importante notar que se habla de deficiencia y no de error, porque el primer término tiene un significado más amplio, pudiendo indicar que los datos no satisfacen las expectativas de los usuarios, o no se ajustan a los requerimientos, o no modelan cabalmente al mundo real, pero que no necesariamente son incorrectos.

 

En este segundo artículo se presentó un muy breve resumen de la evolución de la calidad de datos como área de estudio, y se presentaron diferentes puntos de vista sobre el concepto de calidad de datos. Además de las características descritas en el primer artículo Introducción calidad de datos http://bit.ly/3qnt3hH, como multidimensional y dependiente del contexto, se añadió el hecho de que también es subjetiva porque depende de quién use los datos para determinar si son de buena calidad o no para el uso que se les pretende dar. Y se mostró porqué es preferible evitar el término error y en cambio utilizar deficiencia para referirse a las causas por las cuales la calidad de datos no es perfecta, cosa que, por otra parte, es casi imposible de lograr.

 

Para más información sobre las diferentes visiones acerca de la calidad de datos, se recomienda recurrir a los siguientes trabajos (entre ellos):

  • D. Ballou y H. Pazer; "Modeling data and process quality in multi-input, multi-output information systems"; Management Science, Vol. 31, No. 2, p. 150-162, 1985.

  • M. Scannapieco, P. Missier y C. Batini; "Data quality at a glance"; Datenbank-Spektrum 14: p. 6-14, 2005.

  • D. Strong, Y. Lee y R. Wang; "Data quality in context"; Communications of the ACM, Vol. 40, No. 5, 1997.

  • G. Kumar Tayi y D. Ballou;"Examining data quality"; Communications of the ACM, Vol. 41, No. 2, p. 54-57, 1998.

  • K. Orr; "Data quality and systems theory"; Communications of the ACM, Vol. 41 Iss. 2, p. 66-71, 1998.

  • R. Wang, H. Kon y S. Madnick; "Data quality requirements analysis and modeling"; IX International Conference of Data Engineering, Vienna, Austria, 1993.

  • C. Tongchuay y P. Praneetpolgrang; "Knowledge quality and quality metrics in knowledge management systems"; V International Conference on eLearning for Knowledge-Based Society, Bangkok, Thailand , 2008.


Newsletter Newsletter

Suscríbase a nuestro Newsletter para recibir el contenido directo en su bandeja de correo.

Este campo es obligatorio.
Este campo es obligatorio.

Enlaces de interés

Últimas noticias
Proyectos