Cómo enseñamos a la IA a comprender las noticias

Todos queremos estar al tanto de lo que está pasando, por eso pasamos parte de nuestro tiempo leyendo las noticias, y ahora cada vez más noticias no provienen de sitios de noticias o periódicos, sino de algún tipo de canales de telegramas. Como resultado, después de algún tiempo, resulta que estás suscrito a una docena (y tal vez a docenas de canales) que escriben algo constantemente; como resultado, se dedica una gran cantidad de tiempo a "no perderte algo". Pero si lo miras, la mayoría escribe sobre una cosa, pero de otra manera. Entonces surgió la idea de enseñar a la IA a seleccionar las noticias que realmente importan. Por supuesto, hay diferentes TOP, como Yandex, News o algo así como los resultados del día de algún medio de comunicación respetado, pero hay matices en todas partes. En este artículo intentaré describir estos matices y lo que hicimos y lo que no hicimos.





Matices y fuentes

, –  , , , - –  , " ". , ., , –  , . –  , .





:





  • -,





  • , , - (-, , )





  • – , , 100 . 10 . ( ) –  . - . ,





100 , "" . , –  , , - , GQ, .. - , , - .





, , , , , .. , - . , . –  , ( )... - . , – , "" ( , , - ). , - , , .





:





  • " ", – 





  • "", – .. ""





  • "" – .. - ,





, , :





  • ( )





  • –  NLP NER –   ,





  • - ""





–  3 , : , ( ), – . , , - .





"" NLP

NLP, BERT, . . - . – , MVP :





  • . , NLP , –  , .. - , . , , .





  • , BERT – , , , .





, MVP BERT , 20 – ( ), , BERT - , .. , . , , , –  , ( ).





:





  • BERT – , , NER ,





  • Natasha – , NLP : , , API, . .. " " – 





  • Stanza –  NLP , ,





Spacy, , :













  • NLP , : NER, , ,





  • ( BERT)





- , , Spacy.





, , : Natasha-spacy, , . , - , , .





, –  , . –  : . – , , . , NER PER, LOC, ORG , "" "" , .. .





- , , .. CONLLU, . :





  • GSD





  • SynTagRus





  • Taiga





-. - NER. . , . , - . – « », , . , ( CONLLU), CONLLU. , , .





"" "" – . , regexp-, .













, "" "". - :





  • , ,





  • , .. , "" "" , " "





  • –  - , , , , 3- – 





. , , .





, " ". Facebook( themeduza, forbesrussia) , , ria.ru. –  - . ! - , , , . ~ .





, "" "" , , , , , .





, –  . " " , - .





–  , , . 4-5 , , , , - "".





NĂşmero medio de mensajes por dĂ­a

4 GB RAM, 2 vCPUs 8% CPU, . , airflow, ( - airflow " " 16 GB RAM, 4 vCPUs 32%). , . , DAG-, –  .





Infraestructura

" X", . :





  • ( , , , )





  • , –  NER , "" , ( )





  "source": {
      "id": 1115468824,
      "username": "lentadnya",
      "title": " ",
      "participants": 47148
    },
    "text": "«, ,   »:       .    ,  ",
    "views": 405,
    "link": "https://t.me/lentadnya/16263",
    "interesting": 0.12,
    "reaction": {
      "enjoyment": 0.04400996118783951,
      "sadness": 0.0019097710028290749,
      "disgust": 0.8650462031364441,
      "anger": 0.08112426102161407,
      "fear": 0.00790974497795105
    },
    "entities": [
      "",
      " ",
      "",
      ""
    ],
    "tags": [
      "",
      " ",
      "",
      ""
    ]
      
      



, .





â„–1: "" , , . , –  3-4 , . .. , .. , . –  .





№2: NER – . , , . . - 100 (, ) NER . 85%. . , BERT "" , - , -.





â„–3: , , , , , . . - "" . , "", . , ( ), NER " ". , , , . "" , - " " –  . "" . , "" , , . .





Bueno, quienquiera que haya leĂ­do hasta este punto, espero que sea interesante, pero ÂżcĂłmo se ve nuestro top? Https://t.me/mygenda .





Bueno, como dicen los blogueros de moda: suscrĂ­bete, comparte comentarios y haz preguntas. Espero que esto haya sido interesante.








All Articles