La programación de voz podría ser el próximo hito en el desarrollo de software





Cada vez más nos comunicamos con los dispositivos por voz. A asistentes familiares como Alexa y Siri se les han unido las interfaces de voz en el automóvil Apple CarPlay y Android Auto. Incluso hay aplicaciones que son sensibles a la biometría de voz. ¿Y si también crea nuevos productos usando comandos de voz?



Este podría ser el punto de partida para la programación de voz, un enfoque para el desarrollo de software en el que los desarrolladores usan su voz para escribir código en lugar de un teclado y un mouse. Los comandos que emiten se utilizan para manipular el código y crear nuevos comandos que mantienen y automatizan el flujo de trabajo.



La programación de voz no es tan fácil como parece. Hay una compleja tecnología multicapa detrás. La aplicación de codificación de voz Serenade tiene un motor de reconocimiento de voz dedicado integrado. Trabaja con código, y esta es su principal diferencia con la solución.Google, que reconoce el lenguaje hablado. Tan pronto como el programador lee el texto del programa, Serenade lo pasa al motor de procesamiento de lenguaje natural (NLP). Sus modelos de aprendizaje automático están entrenados para detectar y traducir tokens de programación comunes en código sintácticamente correcto.



En 2020, Serenade recaudó $ 2.1 millones en una ronda semilla . La empresa apareció un año antes, cuando a su fundador le diagnosticaron síndrome del túnel:

« Quora . : , , .»

— Serenade


En 2017, Ryan Heilman también dejó su trabajo como programador debido al dolor en sus brazos y comenzó a construir Talon , una plataforma de escritura sin teclado. “La idea detrás de Talon es reemplazar completamente el teclado y el mouse para todos”, dice.



Talon incluye varios componentes: reconocimiento de voz, seguimiento ocular y reconocimiento de ruido. La transcripción del discurso de Talon se basa en la API Wav2letter de Facebook, a la que Heilman agregó comandos para generar código. El seguimiento ocular y la detección de ruido le permiten simular el funcionamiento del mouse. Los ojos mueven el cursor por la pantalla y los clics ocurren cuando el usuario hace clic con su lengua:

“Este sonido es fácil de reproducir. Es fácil y reconocible sin demora, por lo que es una forma rápida y no verbal de hacer clic con un mouse que no causa estrés vocal ".

- Creador de Talon Ryan Heilman


En 2019, Emily Shea mostró cómo es trabajar en Talon. Desde el exterior, programar en este entorno suena como una conversación en un idioma extranjero. El video está lleno de comandos de voz como "bofetada" (presione Entrar), "deshacer" (borrar), "resorte 3" (vaya a la tercera línea del archivo) y "nombre de frase op es igual a serpiente extraer palabra paren enojado" ( que debería crear esta línea de código: name = extract_word (m)).








Programar en Serenade es más natural. Puede decir "eliminar importación" para eliminar la declaración de importación en la parte superior del archivo, o "compilar" para iniciar una compilación. También puede decir "agregar función factorial" para crear una función que calcule factorial en JavaScript. La aplicación se encarga de la sintaxis, incluida la palabra clave "función", paréntesis y llaves, para que no tenga que pronunciar todos los elementos.









Los modelos Serenade están entrenados para trabajar con el sonido de un micrófono de computadora portátil. Idealmente, sin embargo, necesita un buen micrófono para ayudar a eliminar el ruido de fondo innecesario.



Si planea trabajar con Talon y utilizar el seguimiento ocular, necesitará un equipo especial, aunque el entorno funciona bien sin él. Las plataformas de reconocimiento de voz de código abierto como Aenea y Caster son gratuitas, pero funcionan con el motor Dragon , que se vende por separado. Sin embargo, Caster es compatible con la herramienta de reconocimiento de voz de código abierto Kaldi y Windows Speech Recognition, que están preinstaladas en Windows.



Los resultados hablan por si mismos:

"Describir en palabras lo que quiere hacer es mucho más fácil que usar el teclado: simplemente diga 'mueva estas tres líneas hacia abajo' o 'duplique este método'".

- El cofundador de Serenade Labs, Tommy McWilliam



La programación de voz permite que las personas con lesiones o enfermedades crónicas continúen trabajando en su campo favorito. “La capacidad de usar la voz y quitar las manos del circuito de ecuaciones ha facilitado el control de la computadora”, dice Emily Shea. Además, la programación de voz reducirá la barrera de entrada al desarrollo de software.

"Si la gente puede pensar en un programa de una manera lógica y comprensible, el aprendizaje automático puede asumir el trabajo de convertir los pensamientos de una persona en código sintácticamente correcto".

- El cofundador de Serenade Labs, Tommy McWilliam


La programación de voz todavía está en pañales. Su adopción generalizada depende de lo difícil que sea para los ingenieros de software abandonar el teclado y el mouse. La codificación sin estos dispositivos también abre posibilidades para que las interfaces de cerebro a computadora conviertan los pensamientos humanos en código o incluso en software estándar.



All Articles