Cómo creamos Data-Office





Hola, soy Ildar Raimanov y soy el jefe del departamento de BARS Group, responsable del desarrollo de soluciones BI en la empresa. Teniendo una amplia experiencia en el trabajo con datos, además de poseer experiencia en la industria, decidimos intentar formar un centro de competencia, que, permitiéndonos procesar grandes cantidades de datos, podrá brindar un servicio para la formación de conocimiento para determinadas solicitudes temáticas de los clientes.



Oficina de datosincluye varios componentes a la vez: se trata de un almacenamiento bien desarrollado que incluye tanto un "lago de datos grandes" y mercados preparados, procesos para llenar los datos de los sistemas fuente, mecanismos para verificar la calidad de los datos; un equipo de metodólogos que entienden de qué están hablando estos o aquellos números de acuerdo con las especificaciones de la industria y, por supuesto, un conjunto de varias herramientas de software, la principal de las cuales es la plataforma de inteligencia empresarial Alpha BI desarrollada por BARS Group.



Para que la información sea aún más comprensible, intentaré revelar en un lenguaje sencillo los términos clave enfatizados en el texto.



Si hablamos con más detalle de enfoques y pasos, entonces en el marco de Data-Office hemos definido la siguiente secuencia:



1. Análisis del área temática - destacado El equipo de metodólogos , que describe el área temática, las entidades principales, prepara un modelo lógico de datos para el almacenamiento principal .



¿Quiénes son los metodólogos ? Se trata esencialmente de expertos de la industria que comprenden la esencia de los datos. Si, por ejemplo, estamos hablando de finanzas, entonces estos pueden ser contables y financieros, pero si estamos hablando de medicina, entonces estos son médicos y otros trabajadores médicos calificados. Es su comprensión lo que le permite construir un modelo de datos lógico., es decir, un conjunto de entidades que se analizarán junto con las relaciones: qué relación puede tener una entidad en relación con otra.



2. Basado en el modelo de datos lógicos , se prepara un modelo físico normalizado , los arquitectos de datos están conectados . Aquí, por supuesto, se necesitan especialistas en TI, porque son los que traducen un conjunto de entidades en tablas, crean las claves externas, atributos e índices necesarios, es decir, simplemente construyen el llamado modelo físico .



3. Se está elaborando un modelo de flujo de datos , se establecen fuentes y opciones de integración. Modelo de flujo de datosEs un conjunto de datos transmitidos con las reglas descritas: desde dónde y dónde, en qué condiciones, con qué frecuencia.



4. Como regla, dado que estamos hablando de una gran cantidad de datos, inicialmente los datos de las fuentes ingresan en el formato "tal cual" en el búfer de datos, la primera capa de "datos sin procesar" . Aquí, el objetivo es reducir el tiempo de carga de datos, y el objetivo es tener un conjunto de datos primarios para preservar la capacidad, si es necesario, de desenrollar la cadena de análisis hasta el primer valor.



5. Se están resolviendo problemas de transformación de datosdesde el búfer hasta la segunda capa: almacenamiento normalizado, así como preguntas sobre la frecuencia de actualización y almacenamiento de información en el búfer, el problema de la actualización incremental se resuelve de inmediato. También se están resolviendo problemas de calidad de los datos , métodos y herramientas. Bajo la calidad de los datos se entiende el cumplimiento de la información requerida al contenido lógico. Todo comienza con validaciones de control lógico de formato simple y termina con patrones metodológicos más complejos.



6. Los metodólogos analizan casos de consumidores y, a partir de ellos, se describen posibles mercados de datos., es decir, conjuntos de datos especialmente preparados que deberían ayudar a responder ciertas preguntas.

El equipo de desarrollo de BI ya está formando directamente un conjunto de mercados de datos , que es un almacén de datos analíticos , la tercera capa.



7. Cabe señalar que en paralelo se está trabajando en la conformación del Glosario de Datos (descripción metodológica detallada) y la actualización constante de la conexión entre las propias entidades del repositorio con esta descripción metodológica más detallada.



8. Juego de herramientasel proceso descrito anteriormente puede diferir según las tareas. Se utiliza principalmente la plataforma de inteligencia empresarial Alpha BI, a partir de la cual las capas de almacenamiento se construyen sobre PostgreSQL y las tareas ETL se resuelven utilizando la propia plataforma.



9. El trabajo directo con vitrinas preparadas también pasa por Alpha BI. Recibiendo la necesidad de adquisición de conocimiento: inicialmente, el equipo de metodólogos analiza la tarea y la impone sobre el modelo lógico existente, luego el equipo de desarrolladores de BI , habiendo recibido un entorno orientado al tema, implementa las selecciones necesarias, OLAP-Cubes, tableros, informes sobre la base de vitrinas. Ocurre que el escaparate se transforma un poco, o se crea uno nuevo, si la situación lo requiere.



, « BigData» Hadoop – .


Desde un punto de vista técnico, la interacción de Alpha BI con Hadoop se lleva a cabo a través de una capa construida sobre la base del DBMS Greenplum analítico masivamente paralelo utilizando el protocolo PXF (Platform Extension Framework).



De igual forma, utilizando Greenplum se implementa la posibilidad de análisis online y trabajo con hot data, que, por ejemplo, se actualiza cada 10 segundos. En el caso de los datos calientes, la interacción a través de Greenplum se construye con la base de datos Apache Ignite en memoria que también usa el protocolo PXF.



Al final del día, los datos de la tabla Ignite se transfieren a HDFS y se eliminan de Ignite.



Resumiendo, me gustaría resumir una vez más: los datos deberían funcionar y ser útiles. Para extraer conocimiento de ellos tanto como sea posible, se debe prestar atención a todos los aspectos anteriores: abordar de manera competente la construcción de un almacenamiento, determinar los flujos óptimos de datos, comprender el área temática de los "números", seleccionar una herramienta para la tarea.



Al mismo tiempo, por supuesto, vale la pena prestar especial atención a la formación del Equipo y su segmentación en diferentes tipos de tareas, en cada una de las cuales deben trabajar profesionales afines.



¡Y entonces sus datos, con sus millones y miles de millones de líneas y terabytes de memoria, realmente comenzarán a funcionar, darán conocimiento y, por lo tanto, serán útiles!



¡Estaré encantado de responder a sus preguntas en los comentarios!)



All Articles