martes, 19 de diciembre de 2017

Creación y explotación de un entorno Hadoop de Hortonworks como Datawarehouse

Las empresas no pueden permitirse perderse nada. Ahora las empresas tienen la posibilidad de utilizar un entorno hardware relativamente económico y escalable a medida que vayan creciendo para almacenar todos los datos relativos a su negocio. Aunque todavía no sepan para que pueden llegar a servir sus datos las empresas no quieren tener que arrepentirse en el futuro de no haberlos recogido. El software es gratuito y permite llegar a manejar tantos datos como Google o Facebook. No se quedará nunca pequeño.

Cliente: una empresa inmobiliaria.

Necesidad: Almacenar de manera ordenada en un único sistema todos los datos históricos y actuales que se generan en la empresa.


Situación previa: Se tenía el sistema de gestión de inmuebles y contable de la empresa y un data mart con los datos que la gerencia estimaba necesarios para seguir la evolución de la empresa en una instancia de SQL Server con Analisis Services. Los datos se integraban con Integration Services a partir de fuentes diversas. Los informes se creaban con SQL Reporting Services y Power BI.

Implementación: Se creó un cluster de Hadoop (Hortonworks) donde se iban a almacenar todos los datos operativos de la empresa. Así se almacenarón todos los informes, cartas, comunicaciones, correos electrónicos que se conservaban dispersos por la empresa. Se modificaron los informes para que escribieran también una copia en formato de ficheros .csv para tener un registro auditable histórico de los informes generados. Se recogieron de manera sistemática los datos que se estimaban oportunos de la BBDD del sistema de gestión operativa de la empresa. Se capturaron los logs de dicho sistema y del servidor web de la empresa con Filebeats y Elasticsearch. Se volcaron todos los datos que gestionaban los comerciales de clientes e inmuebles en un formato estandarizado a Hadoop.

Posteriormente se identificaron nuevos conjuntos de datos útiles para el seguimiento de la empresa y se crearon nuevos modelos multidimensionales con SSAS e informes con Power BI para los gestores de la empresa. Se instaló y configuró Dremio para facilitar y agilizar otras consultas de Power BI directamente sobre los datos almacenados en los distintos tipos de ficheros del Cluster.

Todo el diseño de almacenamiento y proceso de la información se hizo conforme al Reglamento General de Protección de Datos (RGPD) que entraría en vigor el 25 de mayo de 2018.

No hay comentarios:

Publicar un comentario