La Importancia de realizar un Análisis de Calidad de Datos

Cada implementación de base de datos dimensional orientada a un área del negocio (Datamart) o una corporativa (DataWarehouse), que se utilice como repositorio de análisis para un sistema de soporte a la toma de decisiones, tiene una etapa común y relevante en su desarrollo. Esta etapa corresponde a la identificación de las fuentes de datos que son utilizadas para realizar las extracciones y transformaciones que permitan obtener datos limpios que generen información con el grado de valor adecuado, y así satisfacer los requerimientos de los usuarios de la organización.

Como parte de la implementación, se ejecuta un análisis situacional de los datos, también conocido como calidad de datos, que en primera instancia permite tener la fotografía de la data almacenada en las fuentes origen; estas pueden ser sistemas transaccionales, ERP´s, archivos planos u otro formato, así como la información que se muestra en los reportes que el cliente genera en su gestión diaria, todo esto bajo un procedimiento establecido previamente.

Se pueden presentar muchos casos de problemas de calidad en los formatos de datos mostrados en un informe; por ejemplo, un nombre de cliente con caracteres inconsistentes como una “/”, un “-” o un signo no identificable; a estos se les denomina datos extraños;  ya que no generan la correcta visualización y entendimiento de la información. Otro ejemplo puntual, podría ser el de las direcciones de destino de un despacho de producto; estas direcciones en muchos casos tienen una longitud muy extensa y cuando se muestran en el reporte se aprecian incompletas o cortadas. Los dos casos mencionados ameritan realizar un análisis de calidad de datos que consiste en primer lugar en revisar las fuentes de información que están alimentando a estos informes; luego se procede a revisar los procedimientos de carga y se evalúan las posibles causas del problema.  Este trabajo es muy minucioso, debido a que se puede presentar una variada gama de situaciones que comprometa la correcta generación y visualización de la información, siendo este un tema crucial al momento de tomar decisiones.

Para poder corregir cada casuística se hace uso de un mecanismo de limpieza y estructuración de datos; como las herramientas de extracción, transformación y carga llamadas ETL´s (extraction, transformation and load) o alguna otra que permita tratar y solucionar cada situación.

Uno de los principales objetivos de realizar un procedimiento de calidad de datos es asegurar la homogeneidad y consistencia de dichos datos desde sus fuentes de origen hacia el repositorio final de explotación de información (Datamart o Datawarehouse), considerando las reglas de negocio. Por ello, los Analistas de Inteligencia de Negocios tienen como labor el detectar cada inconsistencia, aislarla, analizarla e identificar el problema para proceder con la solución; haciendo uso de una herramienta o estableciendo un procedimiento para el correcto tratamiento de los datos.

Finalmente, se elaboran los reportes o tableros de mando que serán consumidos por el usuario final con el grado de veracidad en los datos requerido por un usuario de nivel operativo, táctico o estratégico.

Elaborado por:

José Casachahua

Analista de Business Intelligence de Ciclus Group

Calidad de datos en un proyecto de Inteligencia de Negocios

Un proyecto de Inteligencia de Negocios consiste principalmente en extraer datos de distintas fuentes, posteriormente transformarlos y cargarlos en una base de datos especializada (Datamart) para que posteriormente en este lugar los datos puedan ser analizados y explotados. Pero lo que muchas veces no se toma en cuenta es la calidad de las fuentes de los datos de origen.

En tecnologías de la información, muchas veces  se utiliza el acrónimo GIGO (Garbage in –Garbage Out) que significa que si se tiene como entrada datos con errores, se tendrá como salida datos con errores. Es por eso que es importante asegurar la calidad de las fuentes de origen de los datos, de lo contrario la base de datos de análisis (Datamart) no tendrá la consistencia e integridad debida y peor aún, de cara al usuario final no tendrá la credibilidad que debe tener.

Pero, ¿por qué se dan estos problemas de calidad en los datos? Muchas veces se deben a errores en la entrada de dichos datos en los sistemas transaccionales por parte de los usuarios finales, por no completar todos los campos al momento de ingresar valores en el sistema, por reglas de validación débiles de un sistema que permite registrar valores numéricos en un campo donde sólo debería ir texto, por problemas en las comunicaciones entre sistemas en los cuales existen interfaces, entre otros.

Bajo el framework clásico de una solución de Inteligencia de Negocios, desarrollada con herramientas Microsoft, anteriormente la solución se desarrollaba de esta manera: 1) Extracción, Transformación y Carga mediante Servicios de Integración (Integration Services), 2) Desarrollo de base de datos multidimensional (Cubo) mediante Servicios de Análisis (Analysis Services), 3) Capa de presentación para Reportes se usaba Reporting Services y 4) Dashboards se usaba Performance Point (SharePoint Server).

Microsoft ahora añade a este framework los servicios de Calidad de Datos (Data Quality Services). Esta funcionalidad se añade al principio del framework propuesto por Microsoft como parte previa de una solución de Inteligencia de Negocios.

Existen diferentes técnicas para asegurar la calidad de los datos, pero básicamente lo que debemos realizar son dos  técnicas: Emparejamiento de Datos (Matching) y Limpieza de Datos (Cleaning). Mediante la técnica de Emparejamiento de datos, lo que se busca es comparar los datos contra un conjunto de datos definidos en una Base de Datos de Conocimiento utilizando una política de emparejamiento, definiendo un porcentaje de aceptación para dichos datos. La técnica de Cleaning consiste en la limpieza de los datos;  para ello se debe definir cuáles son los datos correctos, y que cumplan con los estándares definidos por la empresa.

En resumen mediante la calidad de los datos se puede asegurar la consistencia e integridad de las fuentes de dichos datos, de tal manera que se asegure la calidad de la información y, por tanto, la confiabilidad de la solución de Inteligencia de Negocios.

Elaborado por:

Eduardo Becerra

Analista de Business Intelligence de Ciclus Group

Inteligencia de Negocios y la Calidad de Datos en el Sector Público de los Estados Unidos

Dr. Ramón Barquín

En el contexto de Inteligencia de Negocios se aplica el concepto de Garbage in, Garbage out (GIGO), existiendo 2 dominios de data: Data Transaccional y Data de Análisis, dando la primera origen a la segunda. En el sector público de los Estados Unidos los problemas de calidad de datos muchas veces son mayores que los problemas de datos que se dan en el sector privado: problemas de precisión, consistencia, desfase, unicidad y validez.
Por ejemplo, por problemas de falta de precisión en el Departamento de Vehículos no se tiene exactamente los datos de una persona: peso, altura, etc. Otro problema típico es cuando la data está incompleta, por ejemplo cuando no se llenan todos los campos de un formulario.
Los problemas de calidad de datos pueden generarnos inconvenientes para la aplicación de Inteligencia de Negocios en el sector publico de los Estados Unidos. Nuestro colaborador, el Dr. (PhD) Ramón Barquín nos muestra en detalle estos problemas en el siguiente artículo.

Ver artículo: Business Intelligence and Data Quality in the Public Sector

A %d blogueros les gusta esto: