Descubrimos qué copia la gente de Stack Overflow y con qué frecuencia

Dicen que hay algo de verdad en cada chiste. Si hablamos de nuestra broma de April Fool, entonces esta proporción tendió al cien por cien. Queríamos jugar con el clásico meme Stack Overflow y desviarnos un poco de uno de nuestros principios fundamentales. Las fuentes de inspiración son los recursos que han echado a perder la sangre de los fundadores de la empresa, que abren respuestas a preguntas de programación solo para usuarios de pago. ¿Cómo cambiaría el mundo si de repente hiciéramos que la capacidad de copiar texto de Stack Overflow estuviera disponible solo por dinero?



Bueno, solo una broma y ya es suficiente. Esperamos que todos se hayan reído y que nadie se haya asustado demasiado. Pero espera, todavía hemos terminado. Al configurar el sistema para responder a cada entrada de Command + C, nos dimos cuenta de que teníamos la oportunidad de obtener más información sobre lo que la gente está haciendo en el sitio. Hemos capturado con éxito cada copia en Stack Overflow durante dos semanas, y esto es lo que salió de ella.



Usted no está solo



Una de cada cuatro personas que abren una página de preguntas en Stack Overflow copia algo dentro de los primeros cinco minutos después de visitar el sitio. En total, contamos 40,623,987 copias de 7,305,042 publicaciones entre el 26 de marzo y el 9 de abril. Las personas copian texto de las respuestas unas diez veces más a menudo que de las preguntas y unas treinta y cinco veces más que de los comentarios. Los bloques de código se copian diez veces más a menudo que el texto que los acompaña, y la copia de páginas de preguntas sin respuestas aceptadas es sorprendentemente más activa que donde están.



En consecuencia, si alguna vez se ha sentido avergonzado por copiar un código prefabricado en lugar de escribirlo desde cero, ¡deje que su conciencia se calme! ¿Por qué reinventar la rueda si alguien ya te ha resuelto todas las dificultades? A esto lo llamamos reutilización: lo que una vez fue aprendido, creado, probado por otra persona, ahora te servirá. Y no hay nada de malo en eso: de esta manera puede aprender más rápido, hacer que el código funcione más rápidamente y preocuparse menos por él. Todo nuestro sitio se basa en el concepto de reutilización del conocimiento: la comunidad de Stack Overflow es fuerte principalmente por su enfoque altruista de la tutoría.



Está totalmente permitido subirse a los hombros de los gigantes y tomar prestadas las lecciones que han aprendido antes que usted para crear algo nuevo y valioso. Dicho esto, vale la pena seguir algunas prácticas comprobadas al copiar para evitar errores o agujeros de seguridad inadvertidamente, así que asegúrese de hacerlo bien antes de tomar una pieza y pegarla. Pues claro, no debemos olvidar que algunos fragmentos de código solo se pueden usar con licencias. De lo contrario, apoyamos plenamente a cualquiera que quiera beneficiarse del trabajo creado por la comunidad.



Como alguien que ha copiado el código de Stack Overflow durante años sin una punzada de conciencia, no me sorprendió cuando los eventos de copia comenzaron a llegar por millones. Otra cosa me sorprendió: cuántas respuestas a diferentes preguntas nos dio esta información. ¿Cuántas personas realmente copian contenido de Stack Overflow? ¿Copiando solo el código o algo más? ¿Está copiando más activamente preguntas con respuestas aceptadas? Para dar alguna dirección a nuestro análisis, mi equipo y yo hicimos una lista de preguntas que nos interesaban. Todo comenzó con una simple broma y se convirtió en un estudio serio que arrojó luz sobre muchas cosas e impulsó numerosas discusiones sobre el desarrollo y mejora de la plataforma en el futuro.



Datos



Utilizando una herramienta de seguimiento web casera, creamos eventos personalizados para registrar cada vez que un usuario copia algo del sitio. Gracias a estos eventos, pudimos rastrear una variedad de características: etiquetas, tipo de contenido (pregunta, respuesta o comentario, bloque de código o texto sin formato), reputación de la persona que realiza la copia, calificación de la publicación, región, estado de la publicación: aceptado o no. . En general, guardamos casi todo, excepto el texto en sí, que se copió.



Recopilamos los datos durante dos semanas completas, desde el 26 de marzo hasta el 9 de abril. Todos los cálculos a continuación están relacionados con el comportamiento del usuario en este período.



Los resultados de alto nivel confirmaron lo que parecía una broma hace mucho tiempo: en Stack Overflow, todos hacen lo que copian. También nos convencimos rápidamente de que copiar como un tipo de comportamiento obedece a los mismos patrones que ya se han identificado para el tráfico del sitio. La gente copia más activamente los días de semana, durante el horario laboral. Las regiones en las que nuestro sitio goza de mayor popularidad dan más copias: Asia - 33%, Europa - 30% y América del Norte - 26%. Y finalmente, el 86% de los usuarios que copian son usuarios anónimos (es decir, no tienen reputación). Cuando comenzamos a profundizar en más detalle quién está copiando y qué exactamente, se volvió más interesante.



¿Se compara la alta reputación con el copiado fuerte?



Para empezar, queríamos comprobar: ¿los usuarios con una alta reputación serán los más activos en la copia?







Puede verse en el gráfico que la mayor parte de las copias las realizan usuarios sin reputación, es decir, anónimos, porque cualquiera que crea una cuenta obtiene inmediatamente una ventaja. Quizás algunos de estos eventos ocurren entre usuarios que no han iniciado sesión en su cuenta existente. Esto, lamentablemente, no se puede verificar de ninguna manera.



Dado que la mayor parte de nuestros usuarios tiene una reputación baja, intentemos eliminar el desglose por grupos para normalizar los datos. Ahora dirijamos nuestra atención no al número total de copias, sino al número de copias por usuario, para ver cómo difiere el promedio según la reputación.







Si examina esta visualización, se puede rastrear el siguiente patrón: a medida que crece la reputación, la cantidad de copias por usuario comienza a disminuir. La correlación está presente, pero no es muy pronunciada, por lo que no puedo decir con total certeza que los usuarios con buena o mala reputación estén copiando sin ambigüedades de manera más activa. Los desarrolladores que aún están desarrollando habilidades a menudo tienen poca reputación y tienden a buscar recursos que puedan acelerar el proceso de aprendizaje. A medida que acumulan conocimientos, construyen su reputación y comienzan a trabajar en tareas que requieren soluciones bien calibradas; estas no siempre se encuentran en Stack Overflow.



¿Se copian las respuestas aceptadas con más frecuencia?



El hilo de pensamiento aquí se construye así: dado que la respuesta ha sido aceptada, significa que probablemente sea la mejor, y si es así, entonces debería ser copiada con energía redoblada. Sin embargo, si miramos las estadísticas, veremos que en el 52,4% de los casos se copian las respuestas no aceptadas. Sin embargo, si hablamos de valores promedio, entonces para una publicación única con una respuesta aceptada, hay siete copias, y con una inaceptable, solo cinco. Resulta que las publicaciones no aceptadas dan más copias, pero las aceptadas desarrollan más activamente el mismo proceso de reutilización del conocimiento.







Cabe señalar que también hay algunas preguntas que, en principio, no tienen respuestas aceptadas. Tomemos, por ejemplo, esta respuesta: 4.984 usuarios únicos votaron por él y 7943 lo copiaron durante nuestra investigación. Pero el interrogador no lo aceptó. Y tampoco aceptó ningún otro; tal vez esto esté relacionado de alguna manera con el hecho de que no ha aparecido en el sitio desde 2010. Pero muchas otras respuestas útiles están en la misma posición.



¿Las publicaciones de alto rango se copian de manera más activa?



Entonces, las respuestas aceptadas no tienen ninguna ventaja en la copia, pero una calificación alta definitivamente debería tener un efecto, ¿verdad? Vamos a revisar.







Como podemos ver, en la categoría de respuestas en grupos de uno a mil votos, todo va bastante bien. Pero en el caso de las preguntas, la mayor parte de la copia se produce en publicaciones con una calificación de uno a cinco. Sospecho que esto se debe a que la gente los copia para volver a publicarlos hasta que finalmente obtienen una respuesta.



Al igual que en la situación con los usuarios, la mayor parte de las publicaciones en el sitio tiene una calificación bastante baja. Para la normalización, veamos cuántas copias se hacen por publicación.







Aquí puede ver claramente que el número de copias aumenta con la calificación. Y esto es lógico: la comunidad está más dispuesta a retomar lo que ya ha logrado un buen desempeño.



¿Alguien copia publicaciones con una mala calificación?



Pero, ¿qué pasa con esos puntos azules, que representan publicaciones con calificación negativa? ¿Por qué copiar algo que nadie aprueba en absoluto? Bueno, no saquemos conclusiones precipitadas.



Eche un vistazo a esta respuesta . De todas las respuestas con una calificación negativa, obtuvo el número máximo de copias: 288 con una calificación de -2. Si lees el texto, notarás que expresa de manera más concisa lo mismo que dice la respuesta más popular, con una calificación de 29 y 493 copias en total. Incluso si la respuesta con una calificación negativa no salió adelante en términos de número de copias, el principio de "niasilil" aquí claramente jugó a su favor.



¿De qué etiquetas se copian con más frecuencia?



Era esta pregunta a la que más deseaba obtener una respuesta. Desafortunadamente, debido a la escala del estudio y la cantidad de recursos disponibles, no fue posible analizar las etiquetas anidadas. Por ejemplo, la etiqueta html no incluye publicaciones que tengan una combinación de etiquetas | html | css |.



La mayoría de las veces, el contenido se copiaba de las etiquetas más populares y activas del sitio, lo que no era sorprendente. Solo una cosa me llamó la atención: Python aparece en cuatro grupos de etiquetas de los diez primeros a la vez. Tres de ellos están directamente relacionados con el análisis de datos: | python | pandas |, | python | pandas | dataframe | y | python | matplotlib |. Yo mismo no soy indiferente a este tema, por lo que estoy muy contento de que tanta gente esté dominando estas herramientas.







Las 10 etiquetas principales, ahora con copias por publicación



Además de las etiquetas con el recuento total de copias más alto, quería calcular las etiquetas con la proporción más alta de copia a publicación. Establecí un umbral mínimo de diez publicaciones y, como puede ver, resultó que cuanto más específicos en las etiquetas, más copias recopilan por publicación.







¿Qué publicaciones se han copiado más?



Bueno, ahora pasemos a lo que, creo, despierta la curiosidad entre muchos. ¿Qué publicación obtuvo más copias?



Respuesta de bloque de código



Me complace anunciar que el ganador fue la respuesta a Cómo iterar sobre filas en un DataFrame en Pandas , que tiene 3.497 votos y 11.829 copias. Se publicó en 2013 y aún continúa rescatando a miles de personas cada semana.



Respuesta de texto sin formato



Cuando se trata de contenido sin código, aquí viene una publicación sobre TypeError: this.getOptions no es una función [cerrada] con 218 votos y 1,570 copias. No hay forma de comprobarlo, pero supongo que están copiando el fragmento de código `sass-loader @ 10.1.1`.







Pregunta de bloque de código Nuestra pregunta principal es ¿Cómo crear un botón HTML que actúe como un enlace? - 2.147 votos y 3.665 copias.



Pregunta de texto sin formato



Finalmente, la pregunta sin código más popular fue Las actualizaciones fueron rechazadas porque la punta de su rama actual está detrás de su contraparte remota : 322 votos y 261 copias. Hay dificultades con él, porque el texto contiene muchos comandos de git que no están formateados como bloques de código, tal vez se copian activamente. Pero dado que el texto en sí, que fue copiado, no lo guardamos, nadie lo sabrá nunca.



Comentarios (1)



Es importante recordar que Stack Overflow no se trata solo de preguntas y respuestas. A veces, un comentario sensato es suficiente. ¡Aquí hay un par de los que se copiaron de forma especialmente activa!







El primero es el líder absoluto entre los comentarios en todo el sitio, y el segundo es un caballo oscuro: solo obtuvo cinco votos, pero ocupa el sexto lugar en términos de número de copias.



All Articles