La Importancia de realizar un Análisis de Calidad de Datos

Cada implementación de base de datos dimensional orientada a un área del negocio (Datamart) o una corporativa (DataWarehouse), que se utilice como repositorio de análisis para un sistema de soporte a la toma de decisiones, tiene una etapa común y relevante en su desarrollo. Esta etapa corresponde a la identificación de las fuentes de datos que son utilizadas para realizar las extracciones y transformaciones que permitan obtener datos limpios que generen información con el grado de valor adecuado, y así satisfacer los requerimientos de los usuarios de la organización.

Como parte de la implementación, se ejecuta un análisis situacional de los datos, también conocido como calidad de datos, que en primera instancia permite tener la fotografía de la data almacenada en las fuentes origen; estas pueden ser sistemas transaccionales, ERP´s, archivos planos u otro formato, así como la información que se muestra en los reportes que el cliente genera en su gestión diaria, todo esto bajo un procedimiento establecido previamente.

Se pueden presentar muchos casos de problemas de calidad en los formatos de datos mostrados en un informe; por ejemplo, un nombre de cliente con caracteres inconsistentes como una “/”, un “-” o un signo no identificable; a estos se les denomina datos extraños;  ya que no generan la correcta visualización y entendimiento de la información. Otro ejemplo puntual, podría ser el de las direcciones de destino de un despacho de producto; estas direcciones en muchos casos tienen una longitud muy extensa y cuando se muestran en el reporte se aprecian incompletas o cortadas. Los dos casos mencionados ameritan realizar un análisis de calidad de datos que consiste en primer lugar en revisar las fuentes de información que están alimentando a estos informes; luego se procede a revisar los procedimientos de carga y se evalúan las posibles causas del problema.  Este trabajo es muy minucioso, debido a que se puede presentar una variada gama de situaciones que comprometa la correcta generación y visualización de la información, siendo este un tema crucial al momento de tomar decisiones.

Para poder corregir cada casuística se hace uso de un mecanismo de limpieza y estructuración de datos; como las herramientas de extracción, transformación y carga llamadas ETL´s (extraction, transformation and load) o alguna otra que permita tratar y solucionar cada situación.

Uno de los principales objetivos de realizar un procedimiento de calidad de datos es asegurar la homogeneidad y consistencia de dichos datos desde sus fuentes de origen hacia el repositorio final de explotación de información (Datamart o Datawarehouse), considerando las reglas de negocio. Por ello, los Analistas de Inteligencia de Negocios tienen como labor el detectar cada inconsistencia, aislarla, analizarla e identificar el problema para proceder con la solución; haciendo uso de una herramienta o estableciendo un procedimiento para el correcto tratamiento de los datos.

Finalmente, se elaboran los reportes o tableros de mando que serán consumidos por el usuario final con el grado de veracidad en los datos requerido por un usuario de nivel operativo, táctico o estratégico.

Elaborado por:

José Casachahua

Analista de Business Intelligence de Ciclus Group

Deja un comentario

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: