Atrás

Introducción a la calidad de datos

17 nov 2020

Autor: Ing. Sergio Pío Álvarez

Imagen ampliada

Los datos son en la actualidad un activo muy importante de cualquier organización. Tanto para la operativa diaria como para la toma de decisiones, a corto, mediano y largo plazo, es importante contar con datos. Y esos datos deberían ser de la mejor calidad posible para que tanto la operativa sea eficiente como para que las decisiones tomadas sean correctas y a tiempo. Pero, ¿qué significa "calidad de datos"? ¿cuándo se considera que los datos disponibles son de "buena calidad"?. En este primer artículo de una serie referida al abordaje de la calidad de datos se intentará brindar una idea superficial del tema; en futuros artículos se ahondará en conceptos concretos.

A primera vista, pudiera parecer fácil definir a la buena calidad de datos en pocas palabras: "que los datos sean correctos, es decir, que no tengan errores". Sin embargo, como se verá a continuación y en futuros artículos, eso es apenas un detalle en el mundo de los datos, y tal vez ni siquiera sea el más importante. Si se analiza con un poco más de profundidad, se puede ver que son múltiples los factores que afectan a la calidad de los datos: que sean correctos, que estén completos, que sean actuales, que estén disponibles cuando se necesiten, que sean comprensibles, entre muchas otras.

Es posible que los datos disponibles sean correctos (por ahora asumamos que eso significa que no tienen errores, pero en futuros artículos veremos que "correctitud" es un concepto bastante más amplio) y aún así no sean de buena calidad para nosotros. Tomemos el ejemplo de un catálogo online (un sitio web) de una tienda de productos, y supongamos que estamos buscando "algo" para regalar a alguien especial en su cumpleaños. Es probable que el personal encargado del mantenimiento del sitio web haya puesto su mayor empeño en evitar los errores al cargar los datos de los productos, pero aún así algún error podría haberse deslizado, haciendo que tal vez la descripción de algunos productos no sea la correcta, lo que nos llevaría a descartarlos (se dice que hay un problema de "correctitud"), o que directamente no la hayan cargado para algunos otros (el problema es de "completitud"). Podría pasar que la descripción sea correcta pero el precio esté desactualizado (el problema es de "actualidad"), o que algunos productos no figuren en el catálogo aún cuando la tienda efectivamente los comercializa (otro modo diferente del problema de "completitud"). Podría suceder que nada de lo anterior ocurra, pero el catálogo sólo está disponible en un idioma que no conocemos, o que presente múltiples atributos de los productos pero sin explicar qué significa cada uno, por lo que no ayudan a tomar una decisión (ambos son problemas de "usabilidad"), o que muestre un aviso indicando que la descripción de los productos es meramente informativa y que podría diferir de la realidad (el problema es de "confiabilidad"). También podría suceder que el catálogo online presente algún problema de funcionamiento que nos impida acceder a todos los productos o al detalle de algunos de ellos (se trata de un problema de "accesibilidad"). Finalmente, podría suceder que todo sea perfecto, encontremos el producto ideal, pero la tienda no acepta ninguna de nuestras tarjetas de crédito o no dispone de un servicio de entrega a donde queremos enviar el producto (en ambos casos, el problema no está en los datos en sí mismos, sino en la fuente que seleccionamos para analizarlos, pero aún así es un problema de calidad en lo que a nosotros respecta pues todos los datos con los que contamos no nos sirven para nuestro objetivo final que es comprar y enviar el regalo perfecto a la persona especial).

Por todo lo visto, se dice que la calidad de datos es un concepto multidimensional, pues abarca lo que en ciencia de datos se denomina múltiples dimensiones ("correctitud", "completitud", "actualidad", "usabilidad", etc.).

Por otra parte, que los datos sean de buena calidad no implica que sean perfectos para cualquier uso, en cualquier momento, sino que al menos reúnen un conjunto de características que los hacen adecuados para el uso que se pretende darles en el momento en que se los usa. Por ejemplo, si una persona debe decidir si es buen momento para comprar o vender divisas pero solo cuenta con los resultados deportivos del fin de semana anterior, éstos para su objetivo particular no son útiles, y por tanto no son de buena calidad, por más correctos, completos, comprensibles y actuales que sean. Esto implica que, además de multidimensional, la calidad de datos es dependiente del contexto: los datos pueden ser útiles para una determina actividad en un cierto momento, pero completamente inútiles para otra actividad u otro momento, con toda la gama intermedia en cualquier situación.

En este primer artículo se intentó mostrar que el concepto de calidad de datos es bastante más amplio y complejo que solo evitar la presencia de errores en los datos, porque son múltiples los factores que pueden hacer que un conjunto de datos se adecúen al uso, sean consistentes con el mundo real, y en definitiva sean útiles para lo que se necesitan cuando estos se requieran. En futuros artículos se profundizará en el concepto de calidad de datos, así como en las diferentes dimensiones involucradas.


Newsletter Newsletter

Suscríbase a nuestro Newsletter para recibir el contenido directo en su bandeja de correo.

Este campo es obligatorio.
Este campo es obligatorio.

Enlaces de interés

Últimas noticias
Proyectos