Saltar al contenido

Crean nueva app Otter que permite grabar, transcribir y compartir tus conversaciones de voz

Crean-nueva-app-Otter-que-permite-grabar-transcribir-y-compartir-tus-conversaciones-de-voz

Crean una nueva app Otter que se lanza hoy, quiere que sea tan fácil buscar en tus conversaciones de voz como lo es buscar tus correos electrónicos y mensajes de texto. La idea de crear un nuevo asistente de voz enfocado en transcribir conversaciones cotidianas, como reuniones y entrevistas, viene de Sam Liang. El ex arquitecto de Google que puso el punto azul en Google Maps. Luego vendió su siguiente compañía, la plataforma de ubicación Alohar Mobile a Alibaba.Crean-nueva-app-Otter-que-permite-grabar-transcribir-y-compartir-tus-conversaciones-de-voz

Junto con un equipo que proviene de Google, Facebook, Nuance, Yahoo, así como de Stanford, Duke, MIT y Cambridge. La nueva empresa de Liang, AISense, ha desarrollado la tecnología que sustenta a Nutria en los últimos dos años.

Básicamente, una grabadora de voz que ofrece transcripción automática. La nueva app Otter está diseñada para ser capaz de comprender y capturar conversaciones largas que tienen lugar entre varias personas.

Este es un tipo diferente de tecnología de voz que lo que se ha desarrollado hoy para la asistencia de voz, como con Alexa o el Asistente de Google.

Un nuevo asistente de voz, la nueva app Otter, que busca optimizar funciones

«Las tecnologías existentes no son lo suficientemente buenas para las conversaciones de persona a persona», explica Liang. «La API de voz de Google ha sido entrenada para optimizar la búsqueda por voz», dice. Agrega que cuando las personas hablan con asistentes de voz, por lo general solo habla una persona y tienden a hablar más despacio y con más claridad de lo habitual. También suelen hacer preguntas más cortas, como «¿cuál es el clima?». No llevar a cabo largas conversaciones.

«Las reuniones humanas son mucho más complicadas», dice Liang. «Por lo general, involucra al menos a dos personas, y las personas pueden hablar durante una hora. Es una conversación larga «.

Con la nueva app Otter, el objetivo es capturar esas conversaciones (reuniones, entrevistas, conferencias, etc.) y convertirlas en un archivo de búsqueda. Donde todo lo que se dice se transcribe inmediatamente con el software de AISense.

Liang dice que construir un sistema como el de Otter no era posible antes.

Hoy, esto es posible a través de la nueva aplicación móvil de la nueva app Otter para iOS y Android. Así como una interfaz web que también admite cargas de archivos para transcripciones instantáneas.

Crean-nueva-app-Otter-que-permite-grabar-transcribir-y-compartir-tus-conversaciones-de-voz

Para usar la aplicación, no hay nada que tengas que hacer más que presionar el botón «grabar». La conversación de voz se graba y luego está disponible para la reproducción con el audio sincronizado con el texto transcrito. También puedes compartir la grabación con otras personas directamente desde la aplicación. Los datos que Otter crea se almacenan en un formato cifrado en la nube.

Toda la pila de tecnología, incluido el reconocimiento de voz, se construyó internamente. La compañía no está utilizando las API de reconocimiento de voz existentes. Porque querían mejorar con la precisión y optimizar para múltiples parlantes, dice Liang.

Para identificar cuándo alguien más comienza a hablar, AISense usa una tecnología llamada diarización para separar a cada hablante individual. Luego genera una impresión de voz para la voz de cada persona. Hablando en términos generales, esto es como la voz equivalente al reconocimiento facial, con la impresión de voz que se usa para identificar al hablante en el futuro.

«Hace cuatro años, hubo avances tremendos en aprendizaje profundo y A.I., y de repente, la precisión aumentó mucho más», señala. «También requiere una gran cantidad de potencia de CPU, GPU y mucho almacenamiento. Estos se volvieron mucho más asequibles hoy en comparación con hace cinco o diez años», agrega Liang.

El sistema, en el lanzamiento, no es perfecto, pero muestra mucho potencial.

La tecnología de IA fue capaz de diferenciar entre oradores según lo prometido, de lo que he visto en pruebas limitadas, pero no capta cada palabra de una conversación. También omite la palabra exacta a veces. De igual forma, por ejemplo, soltar la «s» de una palabra como «ayuda» y registrarla como «ayuda».

Leer a través de la transcripción me recuerda leer un mensaje de voz transcrito en el iPhone: entiendes lo esencial de lo que se dijo. Pero debes reproducirlo para comprender realmente el mensaje.

Dicho esto, esta nueva app Otter, pudo funcionar en entornos del mundo real. Lo probé, por ejemplo, en una cafetería con música, y aun así pude captar lo que se dijo hasta cierto punto.

La transcripción resultante, sin embargo, rompe el discurso de manera extraña. Las oraciones se cortan justo en el medio con la siguiente línea en la transcripción continuando la oración en una nueva línea. Esto hace que sea más difícil leer a través de la transcripción. Porque nuestra mente está entrenada para ver una nueva línea como un nuevo párrafo, o al menos, una pausa.

Pero el sistema es útil para llegar a la parte correcta de una grabación larga. Por lo que puede transcribir más cuidadosamente una parte clave o una cita, por ejemplo.

Lo que sí es realmente bueno fue la nube de etiquetas en la parte superior de la transcripción. Donde la nueva app Otter identificó las palabras que se usaron mucho en una conversación. Puede hacer clic en estas palabras para saltar a esa parte de la transcripción.

Liang visualiza varios casos de uso potencial para la tecnología de AISense, incluso en empresas, atención médica, educación y más.

AiSense busca desarrollar niveles superiores de esta nueva app Otter

La compañía ya ha licenciado su tecnología de transcripción para la plataforma de conferencia web Zoom. Pero el objetivo por ahora no es generar ingresos a través de un negocio de licencias, sino una versión empresarial de Otter que ofrecerá más controles. Así como un nivel superior para la actual versión gratuita de la aplicación para el consumidor.

Una versión futura permitirá grabar llamadas telefónicas. Pero por ahora, la aplicación se enfoca en conversaciones en persona.

La compañía AISense, hasta la fecha, ha recaudado en total aproximadamente $13 millones en fondos. Horizons Ventures, un patrocinador de Viv, DeepMind, Siri, Slack y otros, lideró la Serie A de $10 millones. También participaron Bridgewater Associates, i-Hatch Ventures, MetaLab, Jay Markley, y los inversores de Boston Jim Pallotta y Stu Porter.

Tal vez te podría interesar:

Fuente: techcrunch.com