
Hice KDPV y luego lo procesé usando una red neuronal. ¿Quién reconoció la película? ¡Ese tipo! :-)
IA y redes neuronales
La inteligencia artificial todavía tiene dificultades con la prueba de Turing, pero hay éxitos en este campo.
En mayo de 2020, el equipo de OpenAI lanzó el nuevo algoritmo de procesamiento de lenguaje natural GPT-3. Es, sin duda, el mejor algoritmo disponible en la actualidad para este propósito.
Las mejoras del sistema con respecto a la versión anterior de GPT-2 son enormes. El número de parámetros del algoritmo ha aumentado más de 100 veces. GPT-3 usa 175 mil millones de parámetros, cuando GPT-2 solo usaba 1,5 mil millones,
y si antes una red neuronal podía generar texto que solo se parecía aproximadamente a un humano, ahora sus capacidades son mucho más amplias.
Un estudiante en su cuenta de Apolos publicó artículos escritos por GPT-3. No muy difícil, al estilo de un entrenador motivacional. Y solo uno de decenas de miles de lectores sospechaba que los artículos no fueron escritos por una persona.
En realidad, esta es la razón por la que OpenAI no lanza el algoritmo de acceso gratuito: simplemente puede enterrar Internet bajo la avalancha de noticias falsas.
Los beneficios potenciales de GPT-3 son enormes. Desde la creación de una nueva generación de asistentes de voz hasta el desarrollo de mecánicas de juego adaptables que llevarán el juego de rol a un nivel completamente nuevo.
Por cierto, ¿has probado AI Dungeon , un juego de texto jugado por GPT-3? Si no, pruébalo, es una experiencia muy interesante. Este artículo describe una de estas experiencias.
Inteligencia de decisiones
La ciencia de la decisión es una disciplina bastante reciente que estudia las teorías científicas sobre la toma de decisiones. Para que las decisiones no se tomen en base a la experiencia subjetiva o sentimientos del tomador de decisiones, sino a través del análisis y comparación de datos.
DI le permite automatizar la toma de decisiones operativas y de rutina, aliviando al tomador de decisiones.
InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .
InferVision, 5 . , . . , , , .
La inteligencia de decisiones se basa en la inteligencia artificial y el aprendizaje profundo. InferVision, por ejemplo, fue capacitado en 100 mil casos.
Por supuesto, con el desarrollo actual de la tecnología, la IA aún no puede tomar decisiones objetivamente mejores en sistemas con múltiples variantes. Simplemente carece de datos de entrada y potencia para el análisis. Pero en muchos momentos le permite excluir la impulsividad de una persona, sus prejuicios y errores de pensamiento banales. Y también para automatizar los procesos de toma de decisiones de rutina y ahorrar tiempo a un especialista para resolver problemas complejos.
Análisis de la nube
Los sistemas de análisis en la nube han existido antes, pero en 2020 la dinámica de su desarrollo ha aumentado enormemente.
La analítica en la nube simplifica el proceso de utilizar grandes conjuntos de datos que se actualizan con frecuencia. Un sistema de análisis unificado para todas las divisiones de la empresa ayuda a actualizar los resultados de los análisis y a acelerar su uso.
El análisis en tiempo real es el siguiente paso por el que se esfuerzan muchas empresas. Es mejor operar con resultados de análisis calientes que se realizaron hace unos segundos. Después de todo, el análisis realizado ayer puede que ya sea inexacto.
La analítica en la nube es una herramienta prometedora para los gigantes empresariales que tienen departamentos de analítica en cada rama. Por lo tanto, las grandes empresas como IBM están hoy estrechamente comprometidas con el desarrollo de tales sistemas.
Mercados de datos
Análisis relacionados con la nube, pero un fenómeno separado.
La calidad de los datos para el análisis es fundamental. Si una startup no tiene la oportunidad de realizar una investigación de mercado global, entonces corre el riesgo de moverse a ciegas, sin conocer las necesidades reales de la audiencia objetivo.
Pero ahora se pueden comprar análisis. Los mercados de datos son mercados de información completos. El famoso Statista es uno de los primeros mercados de este tipo, pero ahora la industria está creciendo a un ritmo tremendo.
Naturalmente, nadie vende datos personales (al menos legalmente). Los nombres y apellidos, las direcciones residenciales, los números de teléfono y el correo electrónico están protegidos por ley. Pero se pueden vender datos anónimos. Y hay muchas cosas útiles para los negocios. Edad y sexo, estatus social, preferencias, ámbito laboral, aficiones, nacionalidad y cientos de otros parámetros que dejas en la red, hasta la elección de gadgets en iOS o Android. Recordamos la vieja verdad: si algo en la red es gratis, entonces tal vez usted mismo sea el pago.
El mercado de Big Data en 2020 es de $ 138,9 mil millones. Los expertos predicen que para el 2025 crecerá a 229.4 mil millones, una escala colosal, en la que la mayor parte la ocupará la venta de información y no su minería.
Blockchain en analítica
El bombo de blockchain ya ha ido un poco. En 2017, solo los perezosos no querían lanzar su propia criptomoneda, y en 2020 la cadena de bloques se utiliza para fines más pragmáticos.
La combinación de blockchain y big data se llama la unión perfecta. Blockchain se enfoca en extraer y registrar datos confiables, la ciencia de datos analiza grandes cantidades de datos para encontrar patrones de desarrollo y hacer predicciones.
Big data es cantidad y blockchain es calidad.
Hay muchos beneficios potenciales de la integración de blockchain en el análisis de big data:
- Mejorar la seguridad de los datos y los resultados analíticos.
- Mantener la máxima integridad de los datos.
- Evitar el uso de datos falsos.
- Analítica en tiempo real.
- Mejora de la calidad de big data.
Blockchain para KYC (conozca a sus clientes). La tecnología es utilizada por bancos y agencias gubernamentales. Pero dado que no existe un almacén de datos común entre diferentes organizaciones, cada una de ellas debe identificarse por separado. Blockchain resuelve este problema.
La plataforma Nexleger de Samsung , que se lanzó en Corea, simplifica este esquema. Ahora basta con pasar por el procedimiento de identificación completo en un solo banco u organización. Si necesita crear una cuenta bancaria, que está incluida en el sistema del proyecto, esto se puede hacer en unos minutos. Ahora todos los círculos del infierno burocrático necesitan atravesar solo una vez, eso es todo.
Bases de datos de gráficos
No es el tipo de DBMS más popular y extendido. Está diseñado específicamente para almacenar topologías que incluyen nodos y sus relaciones. No es solo un conjunto de datos en el formato de tabla clásico. Su misma esencia es diferente.
Los gráficos se basan en relaciones entre entidades, no en entidades en sí mismas.

Y esto es solo un klondike para marketing. Después de todo, el análisis de bases de datos gráficas se puede utilizar para analizar líderes de opinión e influencers en redes sociales, personalizar anuncios, programas de fidelización, analizar campañas virales, mejorar el SEO y mucho más.
Los gráficos le permiten analizar estructuras jerárquicas complejas que sería problemático modelar utilizando bases de datos relacionales.
En 2020, el análisis de gráficos se utilizó activamente para rastrear la propagación del virus en China y más allá. El estudio se basa en datos dinámicos de 200 países, lo que permite predecir el desarrollo futuro de la situación en el mundo y tomar medidas para mitigar las consecuencias. Si está interesado, el estudio completo está aquí .
En 2020, el interés en los DBMS gráficos ha aumentado significativamente. Son utilizados por Ebay, Airbnb, IBM, Adobe, NBC News y decenas de otras grandes empresas. Y los especialistas que saben cómo trabajar bien con bases de datos gráficas valen su peso en oro.
Python en la ciencia de datos
Python continúa capturando el mercado global de análisis y desarrollo. Y su posición solo se está fortaleciendo. Puedes leer más en este artículo .
En el ranking PYPL, Python, que analiza las tendencias de Google, lidera con confianza.
Python ocupa el segundo lugar en la clasificación de GitHub por la cantidad de solicitudes de extracción: 15.9% del número total de todas las solicitudes de extracción. A modo de comparación, el lenguaje R, con el que Python siempre compite en análisis, ya se encuentra en el puesto 33 y representa solo el 0.09% de las solicitudes de extracción.
Se necesitan más expertos con dominio de Python en análisis. Recientemente analizamos el mercado laboral de ciencia de datos en Rusia y descubrimos que el conocimiento de Python se requiere en el 81% de las vacantes, pero R (sin Python) solo se requiere en el 3% de los casos.
R sigue siendo un buen lenguaje de análisis, pero Python ha capturado casi por completo el mercado. Si en 2012 estaban aproximadamente en la misma posición, ahora el liderazgo de Python es innegable. Y esto debe tenerse en cuenta.
2020 ha traído muchas cosas nuevas a la ciencia de datos, porque el campo de la analítica de big data en sí se está desarrollando activamente. Por supuesto, estas están lejos de todas las tendencias que vale la pena mencionar. Y una pregunta aparte para los científicos de datos: ¿qué tendencias profesionales influyeron más en su trabajo este año? Estamos muy interesados en escuchar.

