¿Qué hay en mi contenido para ti? Evolución centenaria y principios básicos de personalización de contenidos

¡Hola,% username%! Hoy hablaremos sobre la historia de la personalización de contenido, los principios de formar una “burbuja de contenido” para cada uno de nosotros, tanto en función de las preferencias personales como de la huella digital de un usuario. Bueno, la charla estará a cargo de Lydia Khramova, científica de datos líder del equipo en QIWI y profesora del curso “Profesión” ‌Data‌ ‌Científico‌ ”en Skillbox. Trató de contar los matices más importantes e interesantes de los procesos de formación de contenido para que este artículo fuera comprensible para todos, no solo para los especialistas.



¡Toda la diversión está bajo el corte!



Desplazándonos por el feed de nuestra red social favorita en el dormitar de la mañana, apenas pensamos en cómo funciona el algoritmo, nos brinda información que nos interesa. Gracias a este y otros algoritmos, el contenido nos sigue a todas partes. Si tienes suerte, parece una gran manta acogedora con fotos y música atmosféricas, si no tienes suerte, llega detrás de nosotros con una nube molesta y pegajosa que quieres dejar de lado, aunque no siempre es así.



Parece que no nos dimos cuenta de cuándo el mundo físico tenía una nueva dimensión: la dimensión del contenido con sus propias reglas y características. Pero nos acostumbramos rápidamente.



La abundancia de información nos hace olvidar cómo obtener y tamizar granos de conocimiento y experiencia; después de todo, ya está en nuestro plato, listo y ordenado, como una variedad de manjares. Pero, ¿de dónde viene todo esto y, lo más importante, cómo podemos influir en nuestro entorno de contenido? Y podemos?



Historia de la clasificación y la búsqueda



Contrariamente a la creencia popular, las herramientas para seleccionar y clasificar información para diversos propósitos útiles son una invención bastante antigua. No apareció ahora, sino en la era de los catálogos de bibliotecas ahora medio olvidados.



Antes de la invención de la imprenta de libros en el siglo XV, el catálogo de la biblioteca era solo un inventario de libros preciosos con sus títulos. Fue la aparición de los ejemplares impresos lo que generó la necesidad de catalogación y búsqueda conveniente de las obras necesarias en bibliotecarios y lectores.

Es bastante difícil establecer quién se convirtió exactamente en el creador del primer catálogo, algunas fuentes atribuyen su invención a Johann Trithemius, abad de Spongheim, bibliotecario, historiador y amante de la criptografía, pero la mayoría menciona a Gottfried Van Swieten, un funcionario austriaco y prefecto de la biblioteca imperial de Viena.



Fue Gottfried Van Swieten quien en 1780 creó el primer catálogo de fichas, muy similar a los catálogos de bibliotecas modernas: fichas con el título del libro, el nombre del autor, el año de publicación y una breve descripción. Podemos decir que el catálogo de tarjetas se ha convertido en un presagio de los motores de búsqueda modernos; después de todo, de hecho, fue la primera metainformación, es decir, información sobre otra información necesaria para la búsqueda y la navegación. Por supuesto, las modestas tarjetas de Van Swieten no pudieron hacer frente a todas las necesidades de lectores e investigadores, pero fueron reemplazadas solo en 1870 gracias a la invención del bibliotecario estadounidense Melville Dewey.



Dewey trabajó durante mucho tiempo para mejorar la eficiencia de la catalogación y llegó a un sistema completamente nuevo basado en la clasificación de libros por contenido, el llamado sistema decimal. Su idea se basó en dividir todas las obras en diez secciones: desde general hasta religión, idioma y geografía e historia. Cada sección, a su vez, se dividió en diez subsecciones, y así sucesivamente, mientras que el código se formó a partir de los índices numéricos de la sección y subsecciones, que se indicaron gloria a la derecha, por ejemplo:

500 Ciencias naturales y matemáticas

510 Matemáticas

516 Geometría

De hecho, fue el primer directorio temático a escala de país, lo que le permitió encontrar fácilmente cualquier información que necesite. Además, debido a la ausencia de caracteres no numéricos en los índices de temas, el sistema de Dewey era ideal para el procesamiento automático y sigue siendo válido en bibliotecas de EE. UU. Y Canadá.



Este invento empujó a los bibliógrafos belgas Paul Otle y Henri La Fontaine a una idea aún más atrevida: sustituir los libros en papel por un sistema de tarjetas electrónicas con fragmentos de información, que les permitiera clasificarlos sin la opinión subjetiva del autor. En 1934, esta idea se plasmó en el libro "Monde" de Paul Otlet, que, según muchos investigadores, anticipó la creación de Internet. Desafortunadamente, este libro es difícil de encontrar en ruso, por lo que solo daré una cita en inglés:

“Todo en el universo, y todo lo del hombre, quedaría registrado a distancia a medida que se producía. De esta manera se establecerá una imagen en movimiento del mundo, un verdadero espejo de su memoria. Desde la distancia, todos podrán leer texto, ampliado y limitado al tema deseado, proyectado en una pantalla individual. De esta forma, todos desde su sillón podrán contemplar la creación, en su conjunto o en algunas de sus partes. “



Nos recuerda nuestras realidades, ¿no?



Desafortunadamente, las ideas de Paul Otlet no se hicieron realidad durante su vida y la World Wide Web nació mucho más tarde. Y ya en 1998, con la invención del algoritmo PageRank para evaluar páginas de Internet por Sergey Brin y Larry Page, comenzó la era de la navegación web sin fin.



La información está disponible, la búsqueda es conveniente y fácil. Y con la llegada de una nueva capacidad de almacenamiento y computación, las empresas comenzaron a recopilar datos.



La espada de doble filo del Big Data El



aumento de los datos acumulados prometía nuevas oportunidades comerciales, desde una mejor percepción del cliente hasta productos digitales completamente nuevos.



La analítica del trabajo de joyería para probar cada hipótesis se ha convertido en una búsqueda de patrones estables en enormes conjuntos de datos que describen a las personas y los fenómenos del mundo. Este enfoque hizo posible ver cosas que antes simplemente no estaban disponibles, modelar y optimizar varios procesos, desde la publicidad hasta las ofertas de productos, para personalizar la experiencia del cliente en diferentes áreas y mejorarla para el deleite del cliente y del negocio. Este salto, en mi opinión, es comparable a la transición de un inventario de libros medieval a un sistema coherente de catálogos de tarjetas, donde a cada objeto se le asigna su propio espacio de estantería y etiqueta.



Sin embargo, trabajar con big data aún no se ha convertido en una panacea para todo y existen varias razones para ello.



  • , , , . , – , , , .
  • , . , , , , , .
  • , , . , – , .
  • – , , – , -.


A pesar de estas limitaciones, cada vez más empresas encuentran los recursos y las oportunidades para implementar sus propios servicios para personalizar la experiencia del cliente y aumentar sus resultados. De una fuente de conocimiento, los datos se convierten en una fuente de monetización, a veces bastante agresiva. En algunos casos, incluso hay posibles efectos secundarios tanto para el cliente como para la empresa: desde la sobrecarga de información hasta la llamada burbuja de contenido. Y antes de hablar sobre ellos, averigüémoslo: ¿qué se esconde bajo el capó de las recomendaciones?



Bajo el capó de las recomendaciones personales



La mayoría de los modelos que ofrecen contenido, producto o servicio se incluyen en uno de cinco conceptos simples.



  1. . , – , , , .
  2. . , / , , .
  3. . , , « – » . , – , .
  4. . , – , . , – , . – , . , , 70- – .
  5. – , .


Problemas de recomendaciones y recarga del entorno de contenido



Todos estos modelos funcionan bastante bien (¡incluso heurísticas!), Pero aún pueden conducir a situaciones desagradables:



  • Sobresaturación. Muchos modelos similares entrenados en datos incompletos (después de todo, cada empresa tiene solo un conocimiento) te atacan con las mismas propuestas. Digamos que eres un amante del café. Y así, esta mañana le ofrecieron un capuchino fragante maravilloso en el café más cercano. La propuesta despertó su entusiasmo y placer al absorber la crema. Pero luego viene otro empujón con un toque de café, otra pancarta, y ahora son quince. ¿Cuántas tazas de café puedes beber al día?
  • – , , / , . , – .
  • – -, .
  • – , , 9 , . , , .
  • – , , , - . , .


Tales situaciones son extremadamente indeseables no solo para el cliente, sino también para el negocio, ya que pueden reducir significativamente el deseo de continuar interactuando con los servicios anunciados o utilizar un producto o aplicación en particular.



Una parte significativa de ellos puede corregirse dentro del sistema de recomendaciones, por ejemplo, el tiempo irrelevante o las recomendaciones intrusivas se eliminan mediante una política y un calendario de comunicación bien desarrollados.



Incluso la burbuja de contenido puede volverse menos monótona si agrega algoritmos competidores al sistema de recomendaciones que mostrarán propuestas alternativas, o un elemento adicional de aleatoriedad que le ofrecerá algo completamente nuevo y, si está interesado, ampliará los límites de las recomendaciones (ver Figura 1).





Figura: 1 Modelos competidores con adiciones aleatorias.



Sin embargo, algunas de las consecuencias de las recomendaciones imperfectas tendremos que tratarlas nosotros mismos. ¿Qué métodos pueden ayudarlo a luchar por un entorno de contenido agradable?



Cómo mejorar su entorno de contenido



Para encontrar el camino hacia su contenido que sea relevante y relevante, intente jugar con los algoritmos que lo rodean y descubra a qué responden mejor. Pero antes de eso, propongo adoptar algunas reglas simples de higiene de la ciencia de datos que lo salvarán de las recomendaciones más molestas.



  • – , , , . – , – , email.
  • – , .
  • – « », , - .
  • Tenga cuidado al pagar las compras: es mejor tener instrumentos de pago separados para todos los miembros de la familia y, a veces, para fines separados.
  • Apague el wifi periódicamente en lugares con muchas redes públicas.


De lo contrario, utilice la búsqueda activa con más frecuencia y pruebe algo nuevo. La mayoría de los buenos modelos de recomendación utilizan no solo datos retro (datos sobre su actividad durante un período prolongado), sino también datos sobre acciones actuales, dándoles mayor prioridad. Después de jugar un poco con las nuevas solicitudes, puede obtener una parte del contenido que se adapte a su estado de ánimo actual.



Y si esto no parece suficiente, únase a las escasas filas de científicos de datos para crear ese sistema de recomendación ideal y aprender todas las sutilezas desde adentro. ¡El aprendizaje automático es indispensable sin una mente humana inquisitiva!

Sobre este tema:







  1. www.history.ox.ac.uk/british-medieval-library-catalogues
  2. Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
  3. en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
  4. en.wikipedia.org/wiki/Dewey_Decimal_Classification
  5. Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
  6. boxesandarrows.com/forgotten-forefather-paul-otlet
  7. www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
  8. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
  9. googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html



All Articles