Área de aprendizaje | Interpretar

Comprender la precisión de los subtítulos de IA: una guía completa

Escrito por Markus Aregger | 13 de abril de 2023

Los subtítulos son una técnica eficaz para mejorar la accesibilidad, la participación y la retención de información durante presentaciones y eventos en vivo. Esto, junto con los cambios en los hábitos de consumo de video en el ámbito del streaming, ha acelerado recientemente la adopción de subtítulos con IA en eventos en vivo y reuniones de negocios.

Pero cuando se trata de elegir un proveedor para su propia reunión o evento, la pregunta que se hace con más frecuencia es: ¿qué tan precisos son los subtítulos automáticos en vivo?

La respuesta rápida es que, en condiciones ideales, los subtítulos automáticos en idiomas hablados pueden lograr hasta un 98% de precisión, según la evaluación de Word Error Rate (WER).

Y sí, hay una respuesta larga y un poco más compleja. En este artículo, queremos ofrecerle una visión general de cómo se mide la precisión, qué factores la afectan y cómo llevarla al siguiente nivel.

En este artículo

  1. Cómo funcionan los subtítulos automáticos
  2. ¿Qué se considera una buena calidad de subtítulos?
  3. ¿Qué factores influyen en la precisión?
  4. Medición de la precisión de los subtítulos automáticos
  5. Comprensión de la tasa de error de palabras (WER)
  6. Obtenga subtítulos increíblemente precisos para sus eventos en vivo

Antes de analizar los números, demos un paso atrás y veamos cómo funcionan los subtítulos automáticos.

Cómo funcionan los subtítulos automáticos

Subtítulos automáticos

Los subtítulos automáticos convierten la voz en texto que se muestra en pantalla en tiempo real en el mismo idioma. El Reconocimiento Automático de Voz (ASR) es un tipo de inteligencia artificial que se utiliza para producir estas transcripciones de oraciones habladas.

Esta tecnología, a menudo conocida como "voz a texto", se utiliza para reconocer automáticamente las palabras en audio y transcribir la voz a texto.

Subtítulos traducidos con IA

Los motores de traducción con IA traducen automáticamente los subtítulos que aparecen en otro idioma. Esto también se conoce como subtítulos traducidos automáticamente o subtítulos traducidos automáticamente.

Artículo recomendado

Por qué debería considerar agregar subtítulos en vivo a su próximo evento

Leer artículo →

En este artículo, hablamos sobre los subtítulos automáticos. Si quieres saber más sobre la precisión de los subtítulos traducidos por IA, consulta este artículo .

¿Qué se considera una buena calidad de subtítulos?

La Comisión Federal de Comunicaciones (FCC) estableció características esenciales en 2014 para determinar si los subtítulos son "excelentes":

  • Precisión: Los subtítulos deben coincidir con las palabras habladas, en la mayor medida posible.
  • Integridad : Los subtítulos se ejecutan desde el principio hasta el final de la transmisión, con el mayor detalle posible.
  • Ubicación : Los subtítulos no bloquean el contenido visual importante y son fáciles de leer.
  • Sincronización : los subtítulos se alinean con la pista de audio y aparecen a una velocidad legible.

Imagen: Subtítulos en vivo traducidos con IA durante un seminario web

¿Qué factores influyen en la precisión?

El motor de IA seleccionado

No todos los motores de conversión de voz a texto producen resultados idénticos. Algunos son mejores en general, mientras que otros lo son en ciertos idiomas. Incluso usando el mismo motor, los resultados pueden variar considerablemente según los acentos, los niveles de ruido, los temas, etc.

Por eso, en Interprefy, siempre evaluamos los mejores motores para determinar cuáles generan los resultados más precisos. Como resultado, Interprefy puede ofrecer a los usuarios la mejor solución para un idioma específico, considerando aspectos como la latencia y el coste. En condiciones ideales, hemos observado una precisión constante de hasta el 98 % para varios idiomas.

La calidad de entrada de audio

Se requiere una entrada de calidad para que la tecnología de reconocimiento de voz automatizado produzca una salida de calidad. Es simple: cuanto mayor sea la calidad y claridad del audio y la voz, mejores serán los resultados.

  • Calidad de audio: al igual que en la interpretación de conferencias , un hardware de entrada de audio defectuoso, como los micrófonos incorporados en las computadoras, puede tener un impacto negativo.
  • Habla y pronunciación claras: los presentadores que hablan en voz alta, con buen ritmo y claridad, generalmente tendrán subtítulos con mayor precisión .
  • Ruido de fondo: un ruido fuerte, perros ladrando o papel moviéndose que es captado por el micrófono pueden deteriorar considerablemente la calidad de entrada de audio.
  • Acentos: los hablantes con acentos inusuales o fuertes, así como los hablantes no nativos, plantean problemas para muchos sistemas de reconocimiento de voz.
  • Superposición de voces: si dos personas hablan una encima de la otra, el sistema tendrá muchas dificultades para captar correctamente al hablante correcto.
Artículo recomendado

¿Qué tan precisos son los subtítulos en Zoom, Teams e Interprefy?

Leer artículo →

Cómo medir la precisión de los subtítulos automáticos

La métrica más común para medir la precisión del ASR es la tasa de error de palabras (WER), que compara la transcripción real del hablante con el resultado de la salida del ASR.

Por ejemplo, si 4 de 100 palabras son incorrectas, la precisión sería del 96%.  

Comprensión de la tasa de error de palabras (WER)

WER determina la distancia más corta entre un texto de transcripción generado por un sistema de reconocimiento de voz y una transcripción de referencia producida por un humano (la verdad fundamental).

El WER alinea las secuencias de palabras correctamente identificadas a nivel de palabra antes de calcular el número total de correcciones (sustituciones, eliminaciones e inserciones) necesarias para alinear completamente los textos de referencia y transcripción. El WER se calcula entonces como la relación entre el número de ajustes necesarios y el número total de palabras del texto de referencia. Un WER bajo generalmente indica un sistema de reconocimiento de voz más preciso.

Ejemplo de tasa de error de palabras: 91,7 % de precisión

Tomemos un ejemplo de una tasa de error de palabras del 8,3% (o una precisión del 91,7%) y comparemos las diferencias entre la transcripción original del discurso y los subtítulos creados por ASR:

Transcripción original: Salida de subtítulos ASR:
Por ejemplo, me gustaría que solo se hiciera un uso muy limitado de lo esencial , siempre y cuando quisiera tratar un punto en particular con más detalle. Temo que pedir a los parlamentos estatales individuales que ratifiquen la Convención solo después de que se haya aclarado el papel del Tribunal de Justicia Europeo podría tener efectos muy perjudiciales. Por ejemplo, a mí también me gustaría que solo se hiciera un uso muy limitado de las exenciones previstas. Me gustaría tratar un punto en particular con más detalle. Temo que el llamamiento a los parlamentos de los Estados miembros para que ratifiquen la Convención solo después de que se haya aclarado el papel del Tribunal de Justicia Europeo podría tener efectos muy perjudiciales.

 

En este ejemplo, a los subtítulos les faltó una palabra y la sustituyeron por cuatro:

  • Medidas: {'coincidencias': 55, 'eliminaciones': 1, 'inserciones': 0, 'sustituciones': 4}
  • Sustituciones: [('también', 'hacer'), ('usar', 'usado'), ('exenciones', 'esenciales'), ('el', 'yo')]
  • Eliminaciones: ['would']

El cálculo de la tasa de error de palabras es por tanto:

WER = (deleciones + sustituciones + inserciones) / (deleciones + sustituciones + coincidencias) = ​​(1 + 4 + 0) / (1 + 4 + 55) = 0,083

WER pasa por alto la naturaleza de los errores

Ahora bien, en el ejemplo anterior, no todos los errores tienen el mismo impacto.

La medición del WER puede ser engañosa, ya que no nos informa sobre la relevancia o importancia de un error. Errores simples, como la ortografía alterna de la misma palabra (movible/movible), no suelen ser considerados errores por el lector, mientras que una sustitución (exenciones/elementos esenciales) podría tener mayor impacto.

Los valores WER, especialmente para sistemas de reconocimiento de voz de alta precisión, pueden ser engañosos y no siempre corresponden a la percepción humana de corrección. Para los humanos, las diferencias en los niveles de precisión entre el 90 % y el 99 % suelen ser difíciles de distinguir.

Tasa de error de palabras percibida

Interprefy ha desarrollado una métrica de error ASR propia y específica para cada idioma, denominada WER Percibido. Esta métrica solo contabiliza los errores que afectan la comprensión humana del habla, no todos. Los errores percibidos suelen ser inferiores al WER, a veces incluso hasta el 50 %. Un WER percibido del 5 al 8 % suele ser prácticamente imperceptible para el usuario.

La gráfica a continuación muestra la diferencia entre el WER y el WER percibido para un sistema ASR de alta precisión. Observe la diferencia de rendimiento para diferentes conjuntos de datos (S0-S4) del mismo idioma.

Como se muestra en el gráfico, el WER percibido por los humanos suele ser sustancialmente mejor que el WER estadístico.

El gráfico a continuación ilustra las diferencias en precisión entre varios sistemas ASR que trabajan con el mismo conjunto de datos de voz en un idioma determinado utilizando Perceived WER.  

Obtenga subtítulos increíblemente precisos para sus eventos en vivo

Hemos alcanzado una precisión del 97 % en nuestros subtítulos automáticos gracias a la combinación de nuestra solución técnica única y la atención que brindamos a nuestros clientes. Alexander Davydov, director de entrega de IA en Interprefy

Si desea tener subtítulos automáticos de alta precisión durante un evento, hay tres aspectos clave que debe considerar: 

Utilice una solución de primera clase

En lugar de elegir cualquier motor listo para usar para cubrir todos los idiomas, opte por un proveedor que utilice el mejor motor disponible para cada idioma en su evento.

¿Te interesa saber qué te ofrece el mejor motor? Lee nuestro artículo: El futuro de los subtítulos en directo: Cómo la IA de Interprefy impulsa la accesibilidad.

Optimizar el motor

Elija un proveedor que pueda complementar la IA con un diccionario personalizado para garantizar que las marcas, los nombres extraños y los acrónimos se capturen adecuadamente.

Asegúrese de que la entrada de audio sea de alta calidad

Si la entrada de audio es deficiente, el sistema ASR no podrá lograr una calidad de salida óptima. Asegúrese de que la voz se capte con claridad y volumen.