Extrayendo tres: Cómo encontrar huevos de Pascua en los libros de Stephen King usando algoritmos de PNL

Fondo

Cuál puede omitir pero no lo hará, ¿verdad?





Estaba detrás del último libro que leí de Stephen King: "Tomminokers". Una vez más, deslizándome en "otro nombre estadounidense que no es mucho el personaje principal", de repente pensé: "¿Y si el nombre que ni siquiera leí realmente fuera importante? ¿Y si este es el nombre de un personaje de otra historia? ya he leído. ¿Qué pasa si, debido a que yo, la persona promedio el viernes por la noche, no tengo una ciudad entera (o incluso un estado) de los nombres de todos los personajes en mi cabeza, me estoy perdiendo los detalles del mundo del tío King? " Se volvió un poco, insoportablemente doloroso por los posibles huevos de Pascua perdidos.





No queriendo aguantarlo, comencé a pensar: "¿Cómo se puede corregir esto?" Buscar en Google todos los nombres de un libro es peligroso, especialmente para un viernes por la noche todavía libre. Además, puede encontrarse con spoilers. Es posible mirar los "mapas" de relaciones entre novelas ya creados por alguien, pero estos mapas son creados por personas como tú y yo, lo que significa que a) algo podría perderse, b) puede haber spoilers nuevamente. Releer libros (como estaba revisando la serie "Lost") para escribir referencias en un cuaderno y dibujar un mapa es peligroso, pero ya para la salud mental.





Pero, ¿y si no soy yo, sino la máquina que está releyendo? Lee, escribe los nombres de los personajes, compáralos con personajes de otros libros y en base a esto, construye automáticamente un mapa de relaciones. Suena como un plan.





Base

y datos y métodos.





, . , Kaggle : https://www.kaggle.com/ttalbitt/stephen-king-books. 16 : " ", "", "", "" . , : "", , , " ", .





Python, , :





  • zipfile - , , , .





  • nltk - , NLP , .





  • spacy - NLP .





  • regex (re) - ? - , , .





  • networkx - .





.





, () : "". , , - ( ?). , , , .





? NLP NER (Named Entity Recognition) . NER () : , , , .. , .





SpaCy, "en_core_web_lg". NLTK , SpaCy:

) ,

) : string-, tuple.





:

  1. , .





  2. , "PERSON".





  3. " 's" ( )





  4. Mrs, Mr, Ms, Dr.





  5. , (, ), .. : //.





  6. : .





:

, "" - , . , .





Los 5 personajes más mencionados con más frecuencia en "Tomminokers"
-5 ""

, , , , ( , ..). , , NEL ( ), .





!





: "" , "" .





" ?" - 117 "", 2 . 70-80- ( ), . , "Mike Mike" ( ) "Roland Eddie" ( ) . - :





  1. 10- Silva Compass - , , ... .





  2. 13- Sherlock Holmes. "!" - , , :





    • Charlie the ChooChoo - 3





    • Elvis Presley - 5





    • Donald Duck - 3





    • Jesus Christ - 11





" ?" - : - , , .





" ?" - ( ) 117 . .





Categorías de "mencionado" y el número de los incluidos en esta o aquella categoría
"" -

" ?" - ! , , /, , / . , - , : , " ... (. )" .





Los más "mencionados" y la cantidad de libros en los que se encuentran
"" - ,

" ?" - . , , , . : - (- ), .





« » (The Little Sisters of Eluria), «» (The Gunslinger), « » (The Drawing of the Three), « » (The Waste Lands), « » (Wizard and Glass), « » (Song of Susannah) « » (The Dark Tower) : , « » (Salems Lot) « » (Black House) , : , , .





, , " ", - « » (: " ", " " " "). " " " " , .





?





  1. , .. " " : , . (, "" " "), (, « » «», « », « » « »).





  2. ( ), .. , . (, , ) .





  3. , //. , " " , «» , « ».





  4. : . , , , . , , - .





, : , , , . " ", - . , , , // - , .





, (, ), .





P.S. ...

!





, - , : Ctrl+F . "", , , "", : "Grab Bobbi's ax and make like Jack Nicholson in The Shining?".





, :





, ! , , . , : "" "" (the Gunslinger), Misery , ..





“¿Y qué hacer? ” - Solo con gusto lee novelas y compruébalo tú mismo, porque este análisis es solo un preludio del principal placer: leer una buena historia de miedo por la noche.





"Si crees que te estoy engañando, significa que escuchaste sin atención las noticias de la noche". Stephen King








All Articles