Área de aprendizaje | Interprefy

How accurate are captions in Zoom, Microsoft Teams, and Interprefy?

Escrito por Markus Aregger | 1 de marzo de 2023

Zoom y Teams ambos tienen una función atractiva que permite a los asistentes activar subtítulos cerrados. Esta herramienta brinda a los usuarios una valiosa asistencia visual para seguir las sesiones al crear automáticamente una transcripción en vivo de lo que se dice.

Tanto Teams como Zoom utilizan algoritmos de reconocimiento automático de voz para transcribir el discurso en tiempo real. Estos son completamente automáticos, con poca o ninguna preparación requerida por el anfitrión de la reunión.

¿Qué tan precisos son los subtítulos de Zoom?

Zoom ofrece dos formas de añadir subtítulos cerrados a sus reuniones y webinars de Zoom. En las reuniones, el anfitrión puede asignar subtítulos manuales a un invitado de la reunión usando un proveedor externo de subtítulos cerrados integrado. Zoom también cuenta con una capacidad de subtitulado automático que se puede activar y desactivar sin ningún trabajo adicional por parte del anfitrión de la reunión.

Se estima que el subtitulado automático de Zoom entregará alrededor 80% de precisión.

¿Qué tan precisos son los subtítulos de Teams?

Los usuarios pueden habilitar subtítulos en vivo durante Microsoft Teams reuniones, que se muestran inmediatamente debajo del video. La investigación sugiere que estos subtítulos pueden lograr una precisión del 85%-90%

Dónde fallan los motores estándar de reconocimiento de voz a texto

Ambas plataformas pueden ofrecer una calidad de subtitulado suficiente, para ayudar a comprender lo que se dice. Sin embargo, la mayoría de los sistemas automáticos de reconocimiento de voz fallan cuando los hablantes usan palabras o frases poco comunes. Por ejemplo, nombres de marcas distintivas o nombres menos populares con ortografías alternativas.

Los motores de reconocimiento de voz impulsados por IA son predictivos por naturaleza. Si un término no está en un diccionario estándar y no se usa con frecuencia o en absoluto en conversaciones informales, los motores no lo anticiparán en sus sesiones.

Artículo recomendado

¿Sabías que el 80% de los suscriptores de Netflix usan subtítulos regularmente?

Descubre 5 datos sorprendentes sobre subtítulos →

Cómo la optimización del motor puede aumentar la calidad

Sistemas de subtitulado impulsados por IA más avanzados, como Interprefy Captions, pueden adaptarse para incluir palabras y frases significativas e inusuales que los motores normales pasarían por alto.

Esto se logra personalizando el sistema para incluir palabras clave que son importantes para su sesión.

Al introducir estos términos en el sistema de antemano, el sistema será consciente de su existencia, podrá detectarlos y transcribirlos correctamente cuando aparezcan durante una sesión.

A continuación se presentan ejemplos de términos que los sistemas de reconocimiento de voz suelen pasar por alto:

  • Nombres de personas, los ponentes, personas clave en la organización o el campo
  • Nombres de tecnologías, productos o servicios
  • Nombres de marcas
  • Acrónimos y abreviaturas
  • Términos poco comunes como expresiones técnicas, términos especializados o jerga

Comparación de calidad de subtítulos

Probemos los motores de inmediato. Usando los subtítulos automáticos para la misma declaración en Teams, Zoom e Interprefy, comparamos los tres métodos lado a lado.

Imagine una empresa llamada "Bravocado." Bravocado pretende realizar una reunión general de la empresa para presentar a su nuevo CEO, Aleks Ritchie, y lanzar su último producto, el FRT 420.

A continuación se encuentran las transcripciones de las observaciones de apertura en MS Teams, Zoom y Interprefy.

Guion original

Hola y bienvenidos al Salón del Ayuntamiento de Bravocado. En un minuto, nos reuniremos con nuestro nuevo CEO, Aleks Richie, y también les contaremos sobre el próximo lanzamiento de nuestro producto FRT 420.


Los siguientes son términos significativos que son relevantes para el evento pero que normalmente no son identificados por los motores de IA:

  • Bravocado
  • Aleks Richie
  • FRT 420

Ahora examinemos los subtítulos que se muestran en cada plataforma durante una reunión con las mismas frases habladas exactamente.

Salida de subtítulos de Microsoft Teams

Microsoft Teams será nuestra primera parada. Las palabras idénticas anteriores se pronunciaron en voz alta y claramente mientras participábamos en una reunión de Microsoft Teams con la opción de subtítulos automáticos activada.

Este es el resultado:

Como podemos ver, el motor de Microsoft's proporcionó una calidad suficiente para obtener una comprensión, pero omitió las tres palabras clave importantes.

Término original   Salida de Teams
Bravocado Desenfado
Aleks Richie Alex Ritchie
FRT-420 FT-420

 

Salida de subtítulos de Zoom

Let's ahora exploremos la función de subtitulado de Zoom's. Seguimos el mismo procedimiento, uniéndonos a una reunión de Zoom, activando los subtítulos de Zoom y pronunciando las palabras claramente y en voz alta.

Este es el resultado:

Zoom's resultados variaron ligeramente de los de Teams'. La puntuación y la estructura de las oraciones son un poco incorrectas, y Zoom también identificó erróneamente algunos términos clave.

Término original   Salida de Zoom
Bravocado bravado
Aleks Richie Alex. Ritchie
FRT-420 Frt. 420

 

Salida de subtítulos de Interprefy con optimización del motor

Mientras Zoom y Teams entregan salida sin procesar automáticamente basándose en sus datos de entrenamiento habituales, Interprefy da un paso más al optimizar el motor de reconocimiento de voz. Esto se logra mejorando el sistema con términos clave que son únicos y extremadamente relevantes para su sesión.

Este fue el resultado:

 

Como podemos ver, los tres términos clave fueron capturados con precisión por el sistema de subtitulado de Interprefy's, después de que el motor fuera optimizado.

En resumen

Los motores de IA estándar pueden proporcionar subtítulos que son útiles para obtener una idea general de lo que se está hablando. En nuestro experimento, demostramos que si los sistemas no estaban equipados para prestar especial atención a la terminología específica, todos omitieron las tres palabras principales que estábamos buscando.

Si "lo suficientemente bueno" es suficiente, los subtítulos de Zoom y Teams pueden ser una opción viable para proporcionar a los usuarios una herramienta que les ayude a obtener una comprensión básica. Sin embargo, dependiendo del contexto y la relevancia de su evento, adoptar un sistema que casi seguro deletree incorrectamente frases cruciales puede ser una elección arriesgada.

Los sistemas de subtitulado especializados, como Interprefy Captions, pueden ayudarle a mejorar la precisión más allá del estándar. Y lo mejor es que pueden añadirse a sus webinars de Zoom, reuniones de Teams, o cualquier otra plataforma de reuniones que esté utilizando, para que pueda llevar su experiencia de subtitulado al siguiente nivel en cualquier lugar.