Calidad de datos en un proyecto de Inteligencia de Negocios

Un proyecto de Inteligencia de Negocios consiste principalmente en extraer datos de distintas fuentes, posteriormente transformarlos y cargarlos en una base de datos especializada (Datamart) para que posteriormente en este lugar los datos puedan ser analizados y explotados. Pero lo que muchas veces no se toma en cuenta es la calidad de las fuentes de los datos de origen.

En tecnologías de la información, muchas veces  se utiliza el acrónimo GIGO (Garbage in –Garbage Out) que significa que si se tiene como entrada datos con errores, se tendrá como salida datos con errores. Es por eso que es importante asegurar la calidad de las fuentes de origen de los datos, de lo contrario la base de datos de análisis (Datamart) no tendrá la consistencia e integridad debida y peor aún, de cara al usuario final no tendrá la credibilidad que debe tener.

Pero, ¿por qué se dan estos problemas de calidad en los datos? Muchas veces se deben a errores en la entrada de dichos datos en los sistemas transaccionales por parte de los usuarios finales, por no completar todos los campos al momento de ingresar valores en el sistema, por reglas de validación débiles de un sistema que permite registrar valores numéricos en un campo donde sólo debería ir texto, por problemas en las comunicaciones entre sistemas en los cuales existen interfaces, entre otros.

Bajo el framework clásico de una solución de Inteligencia de Negocios, desarrollada con herramientas Microsoft, anteriormente la solución se desarrollaba de esta manera: 1) Extracción, Transformación y Carga mediante Servicios de Integración (Integration Services), 2) Desarrollo de base de datos multidimensional (Cubo) mediante Servicios de Análisis (Analysis Services), 3) Capa de presentación para Reportes se usaba Reporting Services y 4) Dashboards se usaba Performance Point (SharePoint Server).

Microsoft ahora añade a este framework los servicios de Calidad de Datos (Data Quality Services). Esta funcionalidad se añade al principio del framework propuesto por Microsoft como parte previa de una solución de Inteligencia de Negocios.

Existen diferentes técnicas para asegurar la calidad de los datos, pero básicamente lo que debemos realizar son dos  técnicas: Emparejamiento de Datos (Matching) y Limpieza de Datos (Cleaning). Mediante la técnica de Emparejamiento de datos, lo que se busca es comparar los datos contra un conjunto de datos definidos en una Base de Datos de Conocimiento utilizando una política de emparejamiento, definiendo un porcentaje de aceptación para dichos datos. La técnica de Cleaning consiste en la limpieza de los datos;  para ello se debe definir cuáles son los datos correctos, y que cumplan con los estándares definidos por la empresa.

En resumen mediante la calidad de los datos se puede asegurar la consistencia e integridad de las fuentes de dichos datos, de tal manera que se asegure la calidad de la información y, por tanto, la confiabilidad de la solución de Inteligencia de Negocios.

Elaborado por:

Eduardo Becerra

Analista de Business Intelligence de Ciclus Group

Deja un comentario

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: