❔ ✋🏾 💂🏼 Analícelo: clasificaciones de juegos metacríticos 👐🏽 🚣🏻 😏

¡Hola, ~~mundo~~ Habr!

En este post, me gustaría compartir mi experiencia en la recopilación y análisis de la base de juegos del sitio Metacritic.com, contarles lo que pasó y qué más hay en los planes. Espero que el material encuentre a su lector, y la posible retroalimentación indicará debilidades y posibles direcciones para un análisis más detallado.

Antecedentes

Muchos de nosotros esta primavera y verano obtuvimos algunas horas libres al día a nuestra disposición: trabajar desde casa, recesión comercial y otras razones que todos conocen. Decidí usar mi tiempo libre para siempre: ajustar R, que no había usado desde mis días universitarios, y al mismo tiempo practicar con datos reales (no vale para certificados sin proyectos reales).

¿Por qué elegí esta base en particular? Porque amo los juegos. Y también, porque en junio hubo un escándalo en torno al juego The Last of Us. Parte II , que recibió elogios de la crítica casi completos y fue recibida de manera extremadamente negativa por parte de la comunidad de jugadores.

Estaba interesado en encontrar una respuesta a varias preguntas:

¿Cómo se corresponden los ratings de la prensa y los jugadores?
¿Existe una dinámica significativa en a) evaluaciones de prensa; b) las valoraciones de los jugadores; c) la diferencia en las estimaciones?

Y comencé a buscar respuestas.

Primer intento. Éxito relativo

Decidí buscar respuestas en metacrtitic.com: este es un sitio grande que agrega calificaciones de publicaciones de juegos y hace posible que los usuarios califiquen los juegos (y no solo ellos) (nota importante: para calificar un juego, no es en absoluto necesario demostrar la propiedad). Parecía que la tarea sería sencilla: "¡Analiza el metacrítico y siente la base con las manos!"

Dicho y hecho. Probablemente, para la audiencia de Habr no será un secreto: hoy, para escribir código funcional (! = Bueno), no es en absoluto necesario ser programador. Al menos, creía plenamente en esto, resolviendo mi problema.

Armado con Google, stackoverflow y lo que puedo aprender en DataCamp, en un día recopilé una base de datos de ~ 16 mil líneas, donde para cada publicación guardé el nombre, la plataforma, la calificación del usuario, la calificación de los críticos y la fecha de lanzamiento, e inmediatamente construí dos gráficos, que luego publicó en una de las plataformas rusas para juegos y temas cercanos al juego.

Primeros resultados

No hubo un análisis inteligible detrás de los gráficos, solo una descripción cuidadosa de los efectos observados. Sin embargo, la comunidad aceptó calurosamente la visualización (y alguien incluso desarrolló la idea y posteriormente implementó una red neuronal que genera reseñas de juegos ), lo que dio un incentivo para no abandonar todo a la mitad y continuar investigando la base de datos.

Segundo intento. Interesante apenas comienza

Creo que para la audiencia de Habr esto no será un secreto: la arrogancia es mala, y escribir un código que funcione (! = Bueno) no es una tarea fácil, no importa cuán útiles sean el stackoverflow, Google y las guías "es fácil analizar páginas en Internet, solo necesitas … ”

Publiqué los primeros gráficos resultantes el 24 y 25 de junio, y la semana siguiente apenas pude pensar en otra cosa que no sea recopilar más información.

Sin embargo, el código que escribí se estaba comportando de manera completamente horrible. Es él:

Trabajó lentamente (y esto era obvio);
Recopilé duplicados de algunos registros e ignoré por completo otros (y esto no era obvio, porque después de compilar la base de enlaces a páginas con juegos, borré los duplicados de ellos, y cuando el número de líneas llega a decenas de miles es imposible decir con certeza si te perdiste algo) ...

Al final, The Last of Us ayudó a encontrar el segundo problema. Parte 2, que no pude encontrar en la base de datos compilada, y después de un par de iteraciones logré encontrar un código que funcionaría correctamente.

La solución al primer problema puede parecer trivial para cualquiera que gane dinero con la programación, pero yo no soy uno de ellos, por lo que le sugiero que simplemente sonríe conmigo (francamente, fue un momento real de "¡Ajá!", Aunque el problema en sí es simplemente ridículo).

El historial no guardó el código, pero todavía tengo una captura de pantalla: puedes evaluarla en el spoiler (ten cuidado, es posible un ataque de vergüenza española ).

Usted ha sido advertido

Al final, ambos problemas se resolvieron. El código del analizador se publica en GitHub . Estoy seguro de que todavía hay muchas controversias, pero ahora parece funcionar (lo que definitivamente agrega puntos a mi PSI).

Tarjeta para pacientes ambulatorios o descripción de la base de datos Metacritic.com

La lista final de páginas con juegos que debían analizarse se compiló el 1 de julio e incluyó 96,719 entradas: enlaces a la página del juego en Metacritic.com (recopilé la base de enlaces del índice alfabético para cada plataforma disponible, por lo que el mismo juego se pueden encontrar en la base de datos de cada plataforma individual; para ser justos, debe tenerse en cuenta que las estimaciones en estos casos también son independientes).

> length(all_platforms)
[96719]

Esto es interesante: de hecho, había 96.718 registros en esta base de datos adecuados para trabajar. Metacritic almacena un juego llamado *** en una lista alfabética para PC (sí, estos son tres asteriscos, y no, esto no es censura), pero el enlace está en este la lista apunta a la página de juegos de PC, no a la página de juegos existente . No veo mucho sentido en agregarlo "a mano" - el juego no tiene ni calificación de usuarios ni críticas; por lo tanto, prácticamente no hay beneficio para el análisis (teniendo en cuenta el tamaño de la base de datos, por supuesto).

De las 96.718 líneas restantes, 213 enlaces conducen a una página 404 o "maldicen" 500 errores del servidor; estas páginas se omiten cuando se recopila y actualiza la base de datos.

> length(all_platforms) - nrow(base_df)
[1] 213

¿Cómo se dividen estos juegos por plataforma? Echemos un vistazo a la parte superior:

en términos de la cantidad de juegos, se espera que PC esté en primer lugar, y luego, inesperadamente (para mí), iOS sigue, superando a todas las consolas de la generación actual. Además, incluso sin un desglose separado por año, se puede ver que el número de juegos aumenta con cada generación posterior.

Veamos la cantidad de juegos por tiempo de lanzamiento: por año, medio año y mes de lanzamiento del juego:

en 2019, una reducción es claramente visible en comparación con 2018; quizás la base de datos Metacritic aún se reponga, pero hasta ahora la diferencia es bastante notable. Será interesante ver los resultados de 2020.

Además del aumento esperado en el número de juegos año tras año, también está claro que la segunda mitad del año es algo más popular: la estrategia de lanzar juegos para las vacaciones de Año Nuevo se lee claramente (o más bien, el lanzamiento con un cierto "retraso": lanzamiento en octubre-noviembre para que el juego tenga tiempo para recolectar prensa y recomendaciones). Es imposible decir sobre el éxito de una estrategia de este tipo basada en datos metacríticos; es necesario mirar los datos de ventas, pero este comportamiento constante de los editores le hace creer en su efectividad.

No hay picos tan obvios en la primera mitad del año; después de todo, las vacaciones de Navidad / Año Nuevo son las celebraciones más universales del mundo, claramente asociadas con los regalos.

Es interesante:en la base de datos metacrítica solo 18 juegos no tienen una fecha de lanzamiento completa. 17 de ellos son juegos para PC, uno más, en Wii U. Cuatro de ellos tienen el año indicado, uno más tiene el estado de "TBA 2011", el resto - TBA o TBA - Early Access. ¡Nada mal para una base tan impresionante!

Entre las 96.505 entradas restantes, 25.943 (26,9%) tienen valoraciones de críticos, 29.129 (30,2%) tienen valoraciones de usuarios y 20.739 (21,5%) juegos tienen ambas valoraciones.

: 1/5 metacrtitic.com , . , 20 – , . , metacritic.com ( metacritic.com, , ). , (, ), . , , – metascore, .

Información sobre la cantidad de entradas,% de juegos calificados (etiqueta gris con un número entre el nombre de la plataforma y la barra; también se muestra con un relleno de color) en una representación gráfica.

También me interesó ver el porcentaje de exclusivas en cada plataforma. Aquí nuevamente, PC e iOS son los líderes, PC obviamente debido a las peculiaridades de la plataforma (el desarrollador no le debe nada al titular de la plataforma, porque el titular de la plataforma, en el sentido similar a las consolas, simplemente no existe); e iOS debido al hecho de que los juegos móviles son un mundo completamente separado, que se cruza solo parcialmente con los juegos clásicos (al menos en el sentido de los títulos lanzados en la plataforma). Además, se ve claramente que cuanto más nueva es la generación, más juegos multiplataforma hay, aunque Nintendo se destaca aquí, que también tiene muchas consolas portátiles en su cartera, con su propio conjunto de series exclusivas. Tenga en cuenta que las principales consolas de la generación saliente, PS4 y Xbox One, completan la lista,mostrando casi el mismo resultado: 12% y 11% de exclusivas, respectivamente. Pero es importante hacer un ajuste para la cantidad de juegos publicados en la plataforma: la consola de Sony está por delante de la competencia de Microsoft en este indicador, en consecuencia, y el número absoluto de exclusivas es mayor aquí. Pero en general, la política es comparable, excepto que la compañía de Redmond gasta menos en soporte de marketing para juegos disponibles solo en su plataforma.

A continuación se muestra un gráfico de la distribución de las calificaciones (las calificaciones de los usuarios se reducen a una escala de cien puntos); no se puede decir que no haya diferencias en las calificaciones, pero están bastante cerca.

Para llegar a una conclusión inequívoca sobre la diferencia en las puntuaciones, comparamos las puntuaciones medias con la prueba t emparejada (ya que estamos comparando los valores medios de dos características para los mismos objetos). Por separado, observo que los promedios dados están ponderados por el número de calificaciones del juego. Se espera el resultado, teniendo en cuenta el tamaño de la base de datos, las diferencias son significativas:

> t.test(x = both_scores$UserScore * 10,
       y = both_scores$MetaScore,  
       paired = TRUE)
	Paired t-test

data:  both_scores$UserScore * 10 and both_scores$MetaScore
t = -17.603, df = 20738, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.823471 -1.458075
sample estimates:
mean of the differences 
              -1.640773

En esta etapa, se sugieren dos conclusiones:

La distribución de las evaluaciones, independientemente de la fuente, se desplaza hacia la derecha, la escala de diez puntos se usa de manera muy limitada: las evaluaciones de los juegos tienden a la parte superior de la escala.
Los usuarios y los críticos tienden a calificar los juegos de manera diferente: en promedio, la puntuación del usuario es ~ 1.6 por debajo de MetaScore en una escala de 100 puntos (que, sin embargo, puede ser una diferencia menor para uno de los consumidores de estas calificaciones: un jugador que intenta hacerse una idea del juego antes de comprar).

¿Que sigue? Vayamos hasta el final.

Hacerse malo

En primer lugar, quiero ver el histograma a escala completa.

En el gráfico se pueden ver varias cosas interesantes. Algunas estimaciones son claramente más comunes que las vecinas. Esto es bastante comprensible con números "redondos": 40, 50, 70 puntos son populares entre los usuarios. El gráfico muestra claramente que es menos probable que el juego reciba una puntuación de 79 puntos; si ha alcanzado este valor, entonces no es una lástima lanzar una extra para aquellos que escriben reseñas de manera profesional o para aquellos que simplemente comparten sus opiniones. Pero si no puedes hacerlo de ninguna manera, lo más probable es que el juego reciba una calificación un punto más baja, de ahí los picos en los puntos que terminan en 8 o 3. ¡Todos adoran los números bonitos!

Más adelante en el programa: histogramas de la distribución de estimaciones por separado para cada año, a partir de 2001 (francamente, me guió la belleza de la visualización más que cualquier otra razón). Aquí vemos un viaje asombroso de la calificación promedio de los usuarios de 83 puntos exorbitantes en 2001 a 47 puntos terribles en 2020; volveremos a lo último, pero por ahora, recuerde que en el momento de recopilar la base, había pasado exactamente medio año y algunos juegos aún no se han lanzado. En este contexto, las puntuaciones de los críticos parecen notablemente estables, oscilando entre 70 puntos en 2007 y 75 en 2020, que aún no ha terminado.

¿Y las plataformas? Aquí uno puede ver claramente los favoritos de los críticos: estos son juegos publicados en la Nintendo 64 (permítanme recordarles, sin embargo, que solo hay 94 de ellos, con estimaciones de ambas fuentes, en la base de datos) y ... iOS, por extraño que parezca. Las simpatías de los jugadores están de vuelta en el lado retro: ¡simplemente compare el impresionante promedio de 86 puntos en PlayStation con los miserables 66 en los juegos de PS4! Una dinámica similar se ve en la familia Xbox. Por separado, Nintendo Switch y Xbox 360 muestran un consenso sorprendente entre críticos y usuarios.

Quizás la razón de las calificaciones más altas de los usuarios para los juegos antiguos radica en el plano de la psicología: mi hipótesis es que las personas les dieron calificaciones años, y posiblemente décadas después del lanzamiento, evaluando sus recuerdos del juego y una infancia feliz en lugar del juego en sí. Sin embargo, para confirmar o refutar esta hipótesis, es necesario obtener metadatos para cada encuesta de usuario; la base existente para la inferencia no es suficiente.

Volvamos al análisis por año.

Aquí nuevamente, pero más claramente, podemos observar la estabilidad de las calificaciones de los críticos y la disminución constante en la calificación promedio de los usuarios, hasta 47 puntos en 2020. Intuitivamente, parece que la correlación entre las estimaciones debería disminuir; vale la pena mirar el gráfico con correlaciones.

La línea gris indica la correlación general para todas las observaciones en la base de datos (incluidos los juegos lanzados antes de 2000). A primera vista, las valoraciones de los juegos lanzados desde mediados de la década anterior se están alejando cada vez más, las opiniones de críticos y jugadores son cada vez más diferentes.

Sin embargo, todavía tenemos una calificación promedio de jugador anormalmente baja en 2020. Y antes de continuar, debes lidiar con eso.

Construyamos un diagrama de dispersión para la cantidad de reseñas de usuarios y críticas. Deliberadamente, no hice que la escala con el número de calificaciones de los jugadores fuera logarítmica; de esta manera, dos valores atípicos extremos se leen mucho mejor.

Preste atención a los dos puntos con el número máximo de reseñas de usuarios: Warcraft 3: Reforged y The Last of Us: Part 2. Ambos juegos tienen una calificación de usuario promedio baja (en contraste con sus vecinos menos calificados del top 10 en términos de número de calificaciones). y el número de evaluaciones en sí mismo actúa como un coeficiente para calcular la calificación promedio del año; por lo tanto, ambos subestiman en gran medida la calificación promedio. A continuación se muestra el top 10 mencionado, y resultó que ambos juegos se lanzaron en 2020.

Ambos juegos son claras víctimas del llamado "bombardeo de revisión", aunque Warcraft 3: Reforged es, en principio, una gran decepción para toda la comunidad, incluidos los críticos. Pero eliminar las calificaciones que son demasiado altas o demasiado bajas al continuar hablando sobre el vínculo entre las calificaciones de los jugadores y los críticos es imprudente. ¿Y si solo se excluyeran estos dos juegos? Bueno, la calificación promedio de los usuarios en 2020 aumentará notablemente. Sin embargo, la influencia sobre el coeficiente de correlación será prácticamente imperceptible - a diferencia de la media, el “peso” del juego no se tuvo en cuenta al calcularlo.

¿Qué pasa si excluimos del análisis todos los juegos con demasiadas calificaciones? ¿Y cuánto es demasiado grande? Echemos un vistazo más de cerca a la variable:

> summary(both_scores$UserReviews)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
     4.0     11.0     25.0    144.2     75.0 104424.0

Uno de los criterios clásicos para encontrar valores atípicos es un umbral de rango intercuartílico y medio. En nuestro caso - (75-11) * 1.5 = 96 (que debe sumarse al valor del tercer cuartil). No hay emisiones "desde abajo": la puntuación del usuario se establece cuando hay al menos cuatro reseñas, pero desde arriba nos deshacemos de 2768 juegos, dejando 17 971 entradas.

Podemos observar nuevamente calificaciones promedio de usuarios por debajo de 70 después de 2011 y una disminución gradual de la correlación desde 2017; sin embargo, vale la pena señalar que se han encontrado indicadores de correlación similares antes, en el período 2000-2020 representado claramente se destacan 2005, 2010-2011, 2015- 2016 años. Pero el descenso nunca ha sido sistemático, cuyos signos se notan en el segmento 2017-2020. Hay dos posibles explicaciones: primero, la contribución del bombardeo de revisión puede sobreestimarse; en segundo lugar, puedo subestimar su escala y es necesario reducir aún más el criterio del máximo aceptable de opiniones de usuarios; sin embargo, por el bien de este material, me ceñiré a la primera hipótesis, dejando la verificación de la segunda como una posible discusión.

Además de todo lo que ya se ha discutido anteriormente, me gustaría llamar la atención del público directamente sobre la diferencia en las calificaciones, para cuyo cálculo, nuevamente, la calificación promedio de los usuarios se multiplicó por 10.

Por primera vez en este material, aparece una distribución que se asemeja a una normal en su forma (teóricamente, el investigador es necesario verificar la normalidad de la distribución, sin embargo, hay una salvedad según la cual, si se observa la selección aleatoria de observaciones y una base suficientemente grande, la diferencia con la distribución normal se puede ignorar utilizando herramientas estadísticas estándar) - ¡esto puede considerarse un éxito local! Sin embargo, no será posible consolidar el éxito con una verificación formal; verificar la normalidad mediante el Chi-cuadrado de Pearson nos devolverá un valor p significativamente menor que 0.05:

> Diff <- unlist(both_scores %>%
  mutate(ReleaseDate = year(ReleaseDate), Diff = UserScore * 10 - MetaScore) %>%
  select(Diff))
> nortest::pearson.test(Diff)
	Pearson chi-square normality test
data:  Diff
P = 35078, p-value < 2.2e-16

Solo queda aceptar, recordarnos que las conclusiones basadas en el análisis de juegos con ambas calificaciones en Metacritic.com no deben generalizarse para los juegos en general, y con este pensamiento continuar el análisis.

Veamos la diferencia en las calificaciones por año de lanzamiento del juego:

Si el primer gráfico es difícil de interpretar, el segundo muestra claramente la tendencia indicada anteriormente - los jugadores son más favorables a los juegos "antiguos" - y se inclinan a evaluar los nuevos juegos peor que la prensa. Curiosamente, la diferencia promedio es muy cercana a cero para los juegos lanzados en 2009-2010, ¡y mire qué juegos se lanzaron hace una década! Vale la pena recordar, sin embargo, que la correlación entre las estimaciones en 2010 es relativamente baja; parece que el número real de juegos con estimaciones divergentes este año es grande, pero los vectores de las diferencias se equilibran entre sí.

Finalmente, echemos un vistazo a las plataformas, individualmente e independientemente del año de lanzamiento del juego:

Si excluimos la Nintendo 64 con sus 89 títulos, la situación es, en general, similar en diferentes plataformas. Sin embargo, el pico de diferencia cero fluctúa; por ejemplo, las calificaciones de los juegos en Nintendo Switch son más consistentes, mientras que las calificaciones de los juegos en iOS están "manchadas" en la escala, y el "pico" de la distribución es más probable en un valor de aproximadamente -20. la plataforma es el líder indiscutible en términos de número de jugadores insatisfechos. El gráfico siguiente solo lo confirma. Por cierto, aquí las principales consolas de la generación saliente también se encuentran entre los "líderes" en el desagrado de los usuarios de PS4 y Xbox One. Aunque en el campo de Nintendo, no todo está despejado en absoluto, el saldo es negativo.

Es posible que ya haya visto el gráfico a continuación al comienzo del artículo; sin embargo, en esta versión hay más juegos y se agrega la plataforma iOS: obtiene el último lugar honorable en la conectividad de las calificaciones.

Quizás valga la pena detenerse en esto y pasar a conclusiones.

Resumiendo

El mundo no está fundido en bronce ni tallado en piedra. Algo en él está cambiando.

Obviamente, los juegos en sí están cambiando. Los jugadores también cambian: su número y variedad de opiniones están aumentando. Y si la industria de reseñas intenta adherirse a algunos estándares, aunque no expresados, manteniendo el puntaje promedio en ~ 7.5 puntos, los jugadores evalúan claramente la situación de manera diferente: para juegos lanzados con 20 años de diferencia (en 2000 y 2020), la calificación promedio de los usuarios es Metacritic bajó de 8.5 a 6.9, ¡una gran pérdida!

¿Cuáles son las razones detrás de esto? Mis hipótesis:

Los jugadores metacríticos tienden a calificar mejor los juegos que pasaron en su infancia: efectos nostálgicos (probablemente) ausentes o eliminados por los críticos profesionales;
, , Metacritic, - , «» 7.5 ;
, Metacritic – , , «» ( ).

Se pueden verificar dos de ellos, y el enfoque es casi idéntico: con un poco de esfuerzo, es posible establecer si las calificaciones otorgadas mucho después del lanzamiento del juego son más altas que las calificaciones otorgadas en los primeros días / semanas posteriores. Para eliminar el efecto del bombardeo de reseñas, también vale la pena "limpiar" los juegos con un número excepcionalmente alto de calificaciones en las primeras horas después de que la oportunidad de publicar reseñas esté disponible, o al menos ignorar esas primeras calificaciones de los usuarios.

La verificación de la segunda hipótesis requiere una gran cantidad de trabajo para reevaluar toda la gama de juegos (dado que cuestiona la objetividad de los críticos, no hay forma de confiar en esta evaluación). Quizás un buen indicador sería la relación entre las tarifas y los presupuestos de los juegos, pero los editores se muestran reacios a compartir esas cifras, y el efecto de marketing no se ha cancelado (puede culpar al mismo tipo de atletas o los transportistas de Ubisoft y Activision Blizzard durante mucho tiempo, pero estos juegos todavía se venden de año en año lo suficiente grandes ediciones).

Vamos a mirar.

Analícelo: clasificaciones de juegos metacríticos