Determina el idioma del texto. Caso complejo



Fuente de imagen: AnnaElli



El sistema Antiplagiat trabaja con textos en diferentes idiomas. La mayoría de los trabajos presentados para revisión están escritos en ruso, inglés o kazajo. Ahora, el índice Antiplagiat contiene documentos en más de 50 idiomas.



Quince de ellos cuentan con soporte completo en todas las etapas del procesamiento de documentos. En un futuro próximo, planeamos ampliar seriamente esta lista. Nuestros incansables investigadores aprenden a traducir incluso de idiomas fantásticos . Los idiomas del texto son importantes en varias etapas del procesamiento de documentos.



Necesita conocer el idioma para las siguientes operaciones:



  • dividir el texto en palabras;
  • búsqueda y correcciones de soluciones técnicas;
  • fusionar guiones;
  • manejo de apóstrofes y otros signos de puntuación;
  • cálculo de estadísticas de texto;
  • búsqueda de préstamos.


, . , , «». . , – .





, NTextCat / CLD3 /CLD2. CLD2 :



  • (~200 /c);
  • ;
  • ( );
  • ; , , , ;
  • C# ;
  • ( 80).




, , .





, , . . , :



  • / (, , ) “” ;
  • ;
  • , , …;
  • — , , .


CLD2





, – . , , , . . , : , .



, CLD2, . CLD2, .





: ( ).



1: CLD2.



2: , 4.



3: CLD2.



4: .



: , , . , , , « ».



, ( 2)



, . 1-2 (CLD2 ). , . , , , , , - CLD2.



… ( 3)



3.0: , , , .



3.1:



:



  1. , ( , .. ), , .
  2. CLD2 .


3.2: , . , , , .

3.3: . CLD2 .





( 4)



, , , . . , , - :



  1. , ;
  2. , ;
  3. .


( ). -. . , , . , . : « «-27».» 4 : «», «"», «», «-27".».





, , , . . , «» , . , 1-2 , . . , . , , . — , , , , : .



, .





, , . . , , , .



- . , , , . — , . . ( 4 ) , , .



, , - . , .





. CLD2:





, . — . — , , .



, CLD2.



, , .





, .





, «» «» , «» — «» – , «Jim» — «him» – , «» , , . CLD2 , .



:





«» . , ( CLD2) , , .





CLD2 , . . . , — .





?



, , . : , , , , . ( !). , «»: , . , , . ( ). , , . , .





– . – . – . .



, . -, CLD2 , 5. -, , . . , .



, , ...




All Articles