Fundamentos de
Data Warehouse
(Mendez, A.,
Mártire, A., Britos, P. Y Garcia-Martínez)
1. Introducción
El Data Warehouse
es una tecnología para el manejo
de la información
construido sobre la base de
optimizar el uso
y análisis de la misma utilizado por
las
organizaciones para adaptarse a los vertiginosos
cambios en los
mercados. Su función esencial es ser
la base de un
sistema de información gerencial, es
decir, debe
cumplir el rol de integrador de
información
proveniente de fuentes funcionalmente
distintas (Bases
Corporativas, Bases propias, de
Sistemas
Externos, etc.) y brindar una visión
integrada de
dicha información, especialmente
enfocada hacia la
toma de decisiones por parte del
personal
jerárquico de la organización.
Es un sitio donde
se almacena de manera integrada
toda la
información resultante de la operatoria diaria
de la
organización. Además, se almacenan datos
estratégicos y
tácticos con el objetivo de obtener
información
estratégica y táctica que pueden ser de
gran ayuda para
aplicar sobre los mismos técnicas de
análisis de datos
encaminadas a obtener información
oculta (Data
Mining).
Esta información
incluye movimientos que
modifican el
estado del negocio, cualquier
interacción que
se tenga con los clientes y
proveedores, y
cualquier dato adicional que ayude a
comprender la
evolución del negocio.
Esta tecnología
ayuda a la organización a responder
preguntas
esenciales para la toma de decisiones que
le permitan
obtener ventajas competitivas y mejorar
su posición en el
mercado en el que operan. Algunas
de las preguntas
podrían ser:
- Cuál es el
perfil de mis clientes?
- Cómo es su
comportamiento?
- Cuál es la
rentabilidad que me deja?
- Cuál es el riesgo
que corro con él?
- Qué servicios y
productos utiliza y cómo
puedo
incrementarlos?
-Entre otros.
Además, se
aplican técnicas de limpieza e
integración de
datos, esto asegura la existencia de
estructuras
homogéneas persistentes en el tiempo.
Para comprender
mejor el funcionamiento de ésta
tecnología
explicaremos su arquitectura y los
sistemas OLTP y
OLAP.
2. Arquitectura
del Data Warehouse
La arquitectura
(Figura 2) de esta tecnología está
integrada por los
siguientes componentes:
2.1. OLTP (On-Line Transaction Processing)
Son aplicaciones
que definen el comportamiento habitual de un
entorno operacional de gestión y ejecutan las
operaciones del día a día. Algunas de las características
más comunes de este tipo de
transacciones
podrían ser:
- Altas/Bajas/Modificaciones
- Consultas
rápidas, escuetas y predecibles
- Poco volumen de
información e información
disgregada
- Transacciones
rápidas
- Gran nivel de
concurrencia
- Modo de
actualización on-line
- Baja redundancia
de datos
Algunos ejemplos
de este tipo de aplicaciones son:
- Compras
- Ventas
- Inventario
- Sueldos
2.2.
Consolidación
Es la parte del
proceso de Data Warehouse que se encarga de
producir el cambio de los sistemas OLTP a las Bases de
Datos OLAP. Consolidan datos de aplicaciones no
integradas, sumarizan datos disgregados y los
transforman. Este proceso está compuesto por
tres pasos
Validación de
Consistencia de los datos
- Comprueba la
validez de los datos en el entorno
operacional
- Inconsistencia
entre distintas aplicaciones dentro del
sistema
Mecanismos de
Consolidación
- Refresco de
datos: Volcado completo de los datos procedentes
del sistema operacional entre el Cliente
y el Servidor. Actúa como traductorentre distintas
tecnologías. Permite que dos o más
sistemas trabajen
juntos aunque no estén preparados
para ello.
(Figura 1).
Algunas de sus
características más relevantes son:
- Un mismo
middleware puede poseer más de una máquina
virtual para soportar diferentes
entornos de desarrollo
- Gestiona las
comunicaciones con el Data Warehouse
- Controla la
concurrencia y controla los procesos Batch
-Posee diversos
controladores de Bases de Datos para
acceder a las distintas fuentes, por ejemplo,
Oracle, Sybase, AS400, etc.
Ejemplos:
- Monitores de
procesamiento de transacciones
- Convertidores de
datos
- Replicación de
datos
- Controladores de
comunicación
- Actualización de
datos: Volcado incremental
tomando como criterio la fecha de operación
- Propagación de
datos
- Factores técnicos
- Mecanismo de
transporte
- Tiempos de carga
- Reformateo de
datos
2.3. Middleware
Es un software
que reside físicamente en un Cliente y en un Servidor
de Comunicaciones, localizado
2.4. OLAP (On-Line Analytical Process)
Son aplicaciones
que se encargan de analizar datos del negocio para
generar información táctica y estratégica que
sirve de soporte para la toma de decisiones.
Mientras que las transacciones OLTP utilizan Bases de
Datos Relacionales u otro tipo de archivos, OLAP
logra su máxima eficiencia y flexibilidad
operando sobre Bases de datos Multidimensionales.
Podemos nombrar
las siguientes características como las más
sobresalientes de estas aplicaciones:
- Estructura de
datos transparente al usuario
- Solo Consulta,
trabajan sobre la información
operacional generada por los sistemas OLTP
- Consultas sobre
grandes volúmenes de datos no
predecibles
- Información
histórica
- Modo de
actualización Batch
- Alta redundancia
de datos para facilitar la generación de
consultas y obtener buenos tiempos de
respuesta.
No hay comentarios:
Publicar un comentario