CONEZURADIO_EN_VIVO

jueves, 13 de septiembre de 2012

Mineria de Datos (MATERIAL Nº 1)

 Fundamentos de Data Warehouse
(Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez)


1. Introducción 

El Data Warehouse es una tecnología para el manejo
de la información construido sobre la base de
optimizar el uso y análisis de la misma utilizado por
las organizaciones para adaptarse a los vertiginosos
cambios en los mercados. Su función esencial es ser
la base de un sistema de información gerencial, es
decir, debe cumplir el rol de integrador de
información proveniente de fuentes funcionalmente
distintas (Bases Corporativas, Bases propias, de
Sistemas Externos, etc.) y brindar una visión
integrada de dicha información, especialmente
enfocada hacia la toma de decisiones por parte del
personal jerárquico de la organización.

Es un sitio donde se almacena de manera integrada
toda la información resultante de la operatoria diaria
de la organización. Además, se almacenan datos
estratégicos y tácticos con el objetivo de obtener
información estratégica y táctica que pueden ser de
gran ayuda para aplicar sobre los mismos técnicas de
análisis de datos encaminadas a obtener información
oculta (Data Mining).

Esta información incluye movimientos que
modifican el estado del negocio, cualquier
interacción que se tenga con los clientes y
proveedores, y cualquier dato adicional que ayude a
comprender la evolución del negocio.

Esta tecnología ayuda a la organización a responder
preguntas esenciales para la toma de decisiones que
le permitan obtener ventajas competitivas y mejorar
su posición en el mercado en el que operan. Algunas
de las preguntas podrían ser:

- Cuál es el perfil de mis clientes?
- Cómo es su comportamiento?
- Cuál es la rentabilidad que me deja?
- Cuál es el riesgo que corro con él?
- Qué servicios y productos utiliza y cómo
puedo incrementarlos?
-Entre otros.

Además, se aplican técnicas de limpieza e
integración de datos, esto asegura la existencia de
estructuras homogéneas persistentes en el tiempo.

Para comprender mejor el funcionamiento de ésta
tecnología explicaremos su arquitectura y los
sistemas OLTP y OLAP.

2. Arquitectura del Data Warehouse 

La arquitectura (Figura 2) de esta tecnología está
integrada por los siguientes componentes: 



2.1. OLTP (On-Line Transaction Processing)
 
Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las operaciones del día a día. Algunas de las características más comunes de este tipo de
transacciones podrían ser:

- Altas/Bajas/Modificaciones
- Consultas rápidas, escuetas y predecibles
- Poco volumen de información e información disgregada
- Transacciones rápidas
- Gran nivel de concurrencia
- Modo de actualización on-line
- Baja redundancia de datos 

Algunos ejemplos de este tipo de aplicaciones son:

- Compras
- Ventas
- Inventario
- Sueldos

2.2. Consolidación 

Es la parte del proceso de Data Warehouse que se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. Consolidan datos de aplicaciones no integradas, sumarizan datos disgregados y los transforman. Este proceso está compuesto por tres pasos

Validación de Consistencia de los datos

- Comprueba la validez de los datos en el entorno operacional
- Inconsistencia entre distintas aplicaciones dentro del sistema

Mecanismos de Consolidación

- Refresco de datos: Volcado completo de los datos procedentes del sistema operacional entre el Cliente y el Servidor. Actúa como traductorentre distintas tecnologías. Permite que dos o más
sistemas trabajen juntos aunque no estén preparados
para ello. (Figura 1). 



Algunas de sus características más relevantes son:

- Un mismo middleware puede poseer más de una máquina virtual para soportar diferentes entornos de desarrollo
- Gestiona las comunicaciones con el Data Warehouse
- Controla la concurrencia y controla los procesos Batch
-Posee diversos controladores de Bases de Datos para acceder a las distintas fuentes, por ejemplo, Oracle, Sybase, AS400, etc.
Ejemplos:

- Monitores de procesamiento de transacciones
- Convertidores de datos 
- Replicación de datos
- Controladores de comunicación
- Actualización de datos: Volcado incremental tomando como criterio la fecha de operación
- Propagación de datos
- Factores técnicos
- Mecanismo de transporte
- Tiempos de carga
- Reformateo de datos

2.3. Middleware

Es un software que reside físicamente en un Cliente y en un Servidor de Comunicaciones, localizado

2.4. OLAP (On-Line Analytical Process)

Son aplicaciones que se encargan de analizar datos del negocio para generar información táctica y estratégica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales.

Podemos nombrar las siguientes características como las más sobresalientes de estas aplicaciones:

- Estructura de datos transparente al usuario
- Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP
- Consultas sobre grandes volúmenes de datos no predecibles
- Información histórica
- Modo de actualización Batch
- Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta.

No hay comentarios:

Publicar un comentario