Subtítulos crípticos en CNN

Los espectadores de CNN notaron que en el boletín de noticias del 12/11/2020 en su canal oficial de YouTube, en lugar de subtítulos, había una especie de lío de fragmentos de palabras en inglés, con un límite continuo:





¿Cómo pudo pasar esto? (A partir del 1/12/2020, los subtítulos de YouTube no se han corregido).



Estenotipo



Durante más de cien años, los taquígrafos estadounidenses han estado utilizando dispositivos especiales con un teclado mínimo de 22 teclas: dos teclas para cada dedo para minimizar el movimiento de la mano:







hace cien años, el estenotipo era una versión de la máquina de escribir y cada tecla dejaba una huella en el papel. No había carro: después de cada "acorde" de una o varias teclas presionadas simultáneamente, el papel se desplazaba hacia abajo una línea. La impresión de cada letra estaba siempre en el mismo lugar de la línea. Las teclas P, R, S, T están presentes en dos copias cada una, debajo de la mano izquierda y debajo de la derecha.





Cada "acorde" y cada línea de la impresión corresponde a una sílaba. No hay espacios entre las palabras y las palabras en sí se transmiten fonéticamente: en la impresión que se muestra arriba, se transcribe la frase “Debería poder leer estas palabras cortas” . Dado que hay menos teclas que letras en el alfabeto inglés, e incluso más que sonidos en el habla en inglés, se utiliza un ingenioso sistema de "codificación", por ejemplo, [n] se escribe como PB, [l] como HR, diptongo [eɪ] como AEU etc. Con esta codificación, por ejemplo, la palabra brillo registra como TKPWHRAOEPL - «acorde" de los once vuelcos!



Ejemplo de un extracto de la transcripción de una audiencia judicial


Después de la reunión, el taquígrafo tuvo que sentarse y volver a escribir su transcripción en una máquina de escribir común, porque es absolutamente imposible que una persona no preparada la lea. En el ejemplo anterior, la frase "absolutamente cien por ciento" está escrita como SHRAOUT HRAOE WOPB HUPBD PERS, que significa [sljuːtliː wɒn hʌnd pɛrs] - las sílabas que faltan deben reconstruirse de acuerdo con el contexto, y las vocales no coinciden con la transcripción del diccionario. Hay diferentes sistemas de notación y abreviatura, por lo que incluso los propios taquígrafos tienen dificultades para leer las notas de los demás. A continuación, se muestra un breve extracto de un libro de texto abreviado que el propietario revisó para un sistema diferente:





Se cree que la velocidad promedio del habla en inglés es de 130 palabras por minuto, y un taquígrafo estenotipado puede escribir hasta 300 palabras por minuto, lo que le permite grabar la conversación incluso cuando los interlocutores se interrumpen entre sí. Existe un sistema Velotype similar , centrado en letra por letra en lugar de fonética; le permite escribir hasta 200 palabras por minuto. La diferencia se debe al hecho de que las palabras en inglés casi siempre tienen más letras que sonidos, a veces dos veces, ya que en las palabras elige [tʃuːz] o earth[ɜːθ]. Velotype se creó en 1939 cuando florecieron las tabulaciones y el procesamiento automático de datos; La motivación para escribir letra por letra fue una transcripción más simple que incluso podría asignarse a una máquina electromecánica. Junto con otros equipos de oficina, las propias máquinas taquigráficas fueron electrificadas: en lugar de llaves conectadas mecánicamente y letras impresas en papel, se han utilizado dispositivos electrónicos, pantallas convenientes, almacenamiento digital y procesamiento de transcripciones desde finales del siglo pasado.





A principios de este siglo, las capacidades del procesamiento computarizado del lenguaje natural alcanzaron el nivel de descifrar automáticamente las transcripciones fonéticas del estenotipo y convertir "SHRAOUT HRAOE" en "absolutamente". Luego, el apoyo a las personas con discapacidad alcanzó el nivel de los canales de televisión que acompañan a las retransmisiones en directo con subtítulos en tiempo real para quienes les resulta más fácil leer que escuchar. Esto significa que la transmisión es monitoreada por un taquígrafo con un estenotipo, registra el discurso del locutor y otros participantes en la transmisión, su computadora transcribe la transcripción, si es necesario, la traduce automáticamente al idioma de la audiencia objetivo y transmite el texto resultante al aire y en YouTube.



Aparentemente, el 12/11/2020, algo salió mal con CNN en este complejo sistema, y ​​la salida del descifrador se mezcló con fragmentos de una transcripción no descifrada. Incluso si descubrieron una falla durante el traslado, decidieron no tocar nada, para que no se rompiera algo más importante. El incidente en Fox News en 2013 causó mucho más ruido : esa vez, el descifrador no hizo frente al nombre de Dzhokhar Tsarnaev , que provocó la explosión en la Maratón de Boston, y lo sustituyó por el nombre de la actriz Zooey Deschanel en los subtítulos .



All Articles