Creamos una empresa de ensueño: sin exageraciones

Seguramente, tipos con trajes caros y con una lengua bien educada han aparecido en su empresa más de una vez, ¡diciendo de manera fascinante que la empresa no vivirá ni siquiera varios años sin las tecnologías modernas de TI!



Todos estos data lake (pantano de datos), QCD (cementerio corporativo de datos), minería de datos (mirar, no socavar), gobernanza de datos (convertirse en esclavo de sus datos) y similares no desaparecen de sus historias, reemplazando periódicamente El uno al otro. La vida útil de otro HYIP rara vez excede uno o dos años, pero si lo desea, cualquier tecnología casi olvidada será desenterrada para usted con gran placer.



Al mismo tiempo, la gran cita se vende como un cofre mágico del que puede obtener varios milagros: una alfombra voladora o botas para caminar, o incluso una reina shamakhan (que es relevante). Pero, como regla general, una polilla mágica come una alfombra voladora, y ya no vuela, las suelas de las botas se cayeron, y caminar con ellas es un inconveniente, pero no hay nada que decir sobre la reina decrépita.



En este artículo intentaré hablar sobre las buenas tecnologías antiguas que aún funcionan. Acerca de lo que se puede aprender de las tecnologías HYIP anteriores, y cómo usar todo esto para simples mortales, como nosotros, sin contratar a una multitud de cienciólogos de datos con salarios> 10 mil $ por mes.



imagen





El artículo continúa el ciclo:

Creación de una empresa de ensueño: datos maestros e integración

Creación de una empresa de ensueño: gestión de la calidad de los datos



Contenido



1. Big data: declaración del problema

2. Datos maestros: un clásico inmortal

3. Cómo almacenar datos: ¿necesita QCD?

4. Normalización, o por qué necesita pantanos de datos

5. ¿Por qué un científico de datos obtiene más analistas y hace menos? ?

6. Bus de datos vs microservicios

7. ¿Cómo no entrar en el bombo publicitario?



1. Big Data: planteamiento del problema



El papel de los macrodatos en el desarrollo de la civilización moderna es impresionante. Pero no por la razón que piensas.



Si Internet en cada aldea y cada teléfono apareció gracias a la pornografía y las redes sociales (mensajeros), entonces el big data donó billones de dólares a los fabricantes de discos duros y RAM.



El problema es que los beneficios reales del big data moderno (en el sentido amplio de la palabra) para toda la humanidad se acercan a los beneficios de la pornografía, es decir, con algunas excepciones ... ¡cero!



Cómo es eso, te sorprenderás. Después de todo, cualquier consultor y vendedor cuenta una docena de ejemplos, desde General Electric con sus diagnósticos del estado de los motores de los aviones, hasta publicidad dirigida de Google.



El problema, más precisamente, es la repetibilidad de los resultados. Te diré un secreto de que los vendedores de big data tienen un banco pequeño. Si les pide más ejemplos, la lista terminará en los diez segundos. Estoy seguro de que podrán nombrar muchos más mensajeros y sitios porno :) porque simplemente físicamente hay más de ellos.



Por supuesto, hay un resultado del trabajo de los científicos de datos, solo que rara vez satisface a los clientes. Porque, habiendo gastado un año de trabajo y varios millones en equipos y salarios, al final dan conclusiones y patrones completamente triviales que son obvios para cualquier gerente de línea o especialista de campo. Por ejemplo, que el producto más vendido se sitúe al nivel del ojo humano.



Y General Electric ha construido su ventaja competitiva basándose en los métodos de análisis matemático y estadística que se pueden encontrar en cualquier curso de matemáticas de la universidad. El concepto de big data no existía entonces.



Pero no se puede exagerar el cálculo, y es poco probable que los grandes gerentes se enteren de los métodos de Fourier y Cauchy de hace doscientos años. Después de todo, todo lo que hay es aburrido, aburrido, es necesario pensar mucho, y definitivamente no hay bala de plata y una píldora mágica.



¿Qué hacer? ¡Trabaja! Durante mucho tiempo, aburrido y deprimente, tratando de crear una atmósfera que fomentara el pensamiento activo. Como en los ejemplos canónicos de Bell Labs o del mismo GE. Esto es muy posible, además, la gente más común, como tú y yo, somos capaces de hacerlo, si los motivas de la manera correcta.



Y necesitas empezar con ...



2. Datos maestros: un clásico inmortal



Los datos maestros son un enfoque para estructurar la información que se encuentra en una empresa. Si en algún momento descubre que una u otra entidad se utiliza simultáneamente en dos o más sistemas de su empresa (por ejemplo, una lista de empleados en un sitio interno, en la base de datos 1C-Accounting o en un sistema CRM), necesita colóquelo en un sistema de datos maestros (MDM) separado y obligue a todos los sistemas a usar solo este directorio. En el camino, será necesario que todos los participantes se pongan de acuerdo sobre los campos y atributos requeridos, así como también propongan muchas reglas para controlar la calidad de estos datos.



Entre los científicos de datos menores de 30 años existe la creencia de que la ventana para la adopción de MDM comenzó alrededor de 2008 y finalizó alrededor de 2012-15. Que después de eso hubo tantas herramientas nuevas (todo tipo de hadoop y spark) que ya no necesita preocuparse por los datos maestros, no necesita ir y negociar con los propietarios de todos los sistemas, piense en las consecuencias de elegir el Arquitectura MDM y cada atributo específico en cada directorio.



Desafortunadamente para ellos y afortunadamente para ti, esta ventana no se cerró. Los sistemas MDM siguen siendo tan relevantes como los sistemas contables o de interacción con el cliente. Y todavía necesitas pensar y negociar.



3. Cómo almacenar datos: ¿necesita QCD?



No, no necesitas cementerios de datos corporativos. Es absurda la



idea de que para fines analíticos es necesario tener conjuntos de todos los datos especialmente preparados (los ideólogos de QCD no solo resaltan esta palabra en negrita, sino que también la subrayan con una línea doble) en su empresa. La tasa de utilización real de estos datos es mínima, el 99% de ellos nunca se utiliza.



Sin embargo, la idea de conjuntos de datos prefabricados está bien en sí misma. Solo deben prepararse antes de su uso potencial, no antes. Y, por supuesto, es necesario tener una metodología de trabajo para dicha formación.



4. Normalización, o por qué necesita pantanos de datos



Esta es la sección sobre "lago de datos" o "pantano de datos". Las leyendas dicen que puede volcar todos los datos de forma indiscriminada en un gran montón. ¡No es necesario convertir todos los datos a un formato, no es necesario normalizarlos y limpiarlos!



Y que existe un software tan especial que te permite sacar conclusiones útiles a partir de este volcado de datos y sacar, como un mago de la manga, las regularidades que necesitas.



En la práctica, la conclusión más "valiosa" que puede extraer del lago de datos es que su empresa casi no funciona durante las vacaciones de enero.



Y la pregunta principal es cómo algunos delincuentes lograron convencer al menos a alguien de la eficacia de este enfoque. Tiendo a la hipnosis :)



5. ¿Por qué un científico de datos obtiene más análisis y hace menos?



Marketing, autopresentación competente, máxima confianza en sí mismo. Tampoco descarto la hipnosis :)



6. Bus de datos frente a microservicios



Mi ejemplo favorito del mal uso de la tecnología. En cualquier empresa bastante grande, en una determinada etapa de desarrollo, aparece un bus de datos. No necesariamente lo mismo y "en la ciencia", pero la función en sí se está implementando con éxito. Puede leer más y sistemáticamente sobre el enfoque en el último artículo .



Como alternativa, se ofrece a las empresas jóvenes que crecen con éxito el uso de microservicios o conjuntos de API abiertas, diferentes para cada sistema utilizado.



Sí, los microservicios son muy útiles cuando se escribe un producto mono con el que otros pueden integrarse. Los microservicios tienden a ser bastante fáciles de escribir, fáciles de probar y no necesitan ser negociados durante el desarrollo. Por esto son amados tanto por desarrolladores como por gerentes.



Como muestra la práctica, dos sistemas cualesquiera están perfectamente integrados a través de microservicios. Cualesquiera tres son buenos. Cualquier cinco es tolerable si documenta todo con mucho cuidado y lo cuelga con autotests.



Ya en diez sistemas, la arquitectura que se veía genial al principio, el enfoque se convierte en una especie de enredo, una red, cuando ciertos flujos se caen y no funcionan durante meses.



imagen



En varias docenas de sistemas (la cifra sólo parece impresionante, en cualquier empresa se utilizan muchos más sistemas de información) el enfoque se esconde por sí solo. Y después de unos años, hay una especie de centralización y un autobús. Como regla general, lo hacen otras personas.



7. ¿Cómo no meterse en el bombo?



Ha visto varios ejemplos de exageración cuando algún enfoque o tecnología puede ser inútil. Y esto teniendo en cuenta el hecho de que, según las estadísticas mundiales, la proporción de proyectos completados con éxito para el desarrollo e implementación en TI rara vez supera el 40%.



El regusto de los proyectos fallidos o inútiles puede llegar a ser tal que la empresa abandone temporalmente las iniciativas de TI por completo, hasta que otro gerente influyente "se sienta a horcajadas" en otra exageración.



Para no exagerar, antes de la próxima implementación, debe averiguar lo siguiente:



- la tecnología tiene un gran "banco". El número de ejemplos de aplicación exitosa debería exceder un par de docenas, y no deberían dar la impresión de que “aquí está ocurriendo algún tipo de magia”;

- la tecnología debe pasar la "prueba de la abuela" (la explicación de la esencia debe ser tan clara que incluso tu abuela pueda dominarla - repito, sin magia);

- la tecnología debe tener una lista específica y digitalizada de los logros que su empresa recibirá como resultado. Los implementadores de MDM, CRM o el mismo departamento de contabilidad de 1C pueden pasar horas hablando de los beneficios de su solución usando el ejemplo de sus tareas específicas. Los implementadores de big data "en general" comienzan a decir que primero recopilaremos un montón de datos y luego veremos qué hacer con ellos;

- y, finalmente, la tecnología debe ser falsificada (en el sentido del criterio de Popper ), es decir, el implementador debe comprender claramente el alcance de su aplicación y relevancia, y ser capaz de argumentar en contra(!) implementación. No es necesario clavar clavos con un microscopio y, en general, por ejemplo, si tiene pocos clientes, ¿necesita un CRM superdotado?



En general, esto ya es suficiente para seguir trabajando y no distraerse con los HYIP.



¿Puede sugerir algún otro criterio?

¡Te invito a la discusión!



All Articles