9 min de lectura

Compresión de audio en interpretación simultánea remota

By Dora Murgu on August 16, 2022

Temas: Interpretación simultánea remota

calidad de sonido en la interpretación remota

Hemos subido este artículo a nuestro podcast Interprefied y ahora está disponible en su directorio de podcasts preferido.

Escuche y descargue el podcast a continuación:

Disponible para descargar en:

La calidad de sonido es algo que nos acompaña todo el día. Desde encender la radio por la mañana hasta ver sin parar esa nueva serie de televisión tarde en la noche, el buen audio es algo que a menudo damos por sentado. Aunque suele ser bastante fácil detectar un audio deficiente, la calidad de audio buena es, de hecho, una cuestión bastante compleja. Un buen ejemplo es la discusión de hace una década entre los amantes del vinilo y otros audiófilos sobre qué formato ofrece una calidad de sonido superior: CD o vinilo.

En la interpretación remota, poder tanto recibir como enviar audio de calidad es fundamental. Para garantizar que la información se procese con precisión y asegurar una experiencia de audio agradable mientras se protege la audición de las personas.

Una plataforma centrada en el audio, estamos constantemente trabajando en nuevas formas de influir en el comportamiento del ponente, así como implementar soluciones de audio innovadoras que garantizan una calidad de audio superior. Un tema frecuentemente discutido, la compresión de sonido puede realmente ayudar a impactar positivamente la experiencia sonora, si se aplica correctamente.

Nos sentamos con Richard Schiller, Ingeniero de audio y Gerente senior de producto en Interprefy para entender qué es la compresión de sonido, cómo se usa en RSI y qué influye en la calidad del sonido.

Hola Richard, cuéntenos un poco sobre su trayectoria y lo que hace.

Hola Dora, es un placer volver a hablar contigo. Mi puesto en Interprefy es Gerente Senior de Producto. Me encargo de la dirección y los detalles del producto. Además, soy ingeniero de sonido capacitado. Originalmente trabajé en la organización de radiodifusión de habla más grande del mundo, la BBC World Service. Esa experiencia me lleva a obsesionarme con la claridad y la consistencia.

La consistencia fue la clave para hacer que la radio funcionara a gran escala, y la claridad fue la esencia misma de lo que entregamos. También he trabajado en la grabación musical y la televisión. He desempeñado la mayoría de los puestos en esa profesión, incluyendo productor, director, presentador y guionista.

Entonces, usted es la persona adecuada para responder a la pregunta de un millón de dólares: ¿qué es la compresión?

Existen dos conceptos diferentes e independientes que se denominan compresión en el sonido: originalmente existía la compresión dinámica, que es un circuito o, hoy en día, un algoritmo que controla el nivel de sonido de forma automática. Esto se utiliza principalmente para reducir el rango dinámico — el intervalo entre los sonidos más suaves y los más fuertes. Posteriormente surgió la reducción de la tasa de bits, un sistema para disminuir la cantidad de datos de audio que deben almacenarse o transportarse.

La compresión dinámica y la reducción de la tasa de bits pueden usarse bien o mal.

Entonces, ¿son buenos o malos?

Ni. Como casi todo, estas dos técnicas pueden usarse bien o mal. Usadas mal, entonces no son buenas, pero no hay nada en ninguna de las formas de compresión que indique que sean inherentemente malas.

La compresión dinámica es esencialmente como disponer de un dispositivo que monitoriza el nivel de sonido y reduce la perilla de volumen cuando el audio se vuelve demasiado fuerte. Luego la vuelve a subir a medida que el audio se atenúa. Ayuda a las personas a escuchar tanto pasajes fuertes como silenciosos con la misma claridad. En esencia, no difiere de un ser humano que controla el volumen y lo disminuye – y enfatizo que la compresión dinámica se trata de reducir el volumen, de ahí su nombre.

Entonces, ¿de dónde proviene la preocupación por la compresión?

La compresión dinámica reduce el sonido, lo cual a menudo es indeseable, por lo que se complementa con un control de volumen preestablecido que lo vuelve a aumentar. Dado que la compresión iguala el nivel de la señal, existen dos opciones. Puede configurarse para que sea más silencioso pero más fácil de escuchar, o más fuerte y más llamativo. Permítame hacer una pausa en la discusión para señalar un punto importante: si considera que el sonido está demasiado alto, bájelo. Siempre tome el control de su propio nivel de audición.

No solo el nivel puede estar equivocado, también importan los llamados constantes de tiempo de un compresor. Finalmente, está la relación. A menudo se configura de manera demasiado agresiva y esa es la causa más común de que la compresión haga que el discurso sea incomprensible.

Una de las aplicaciones más problemáticas es el diseño inadecuado de los circuitos de Control Automático de Ganancia (AGC) tanto en equipos de consumo antiguos como en los algoritmos empleados por algunos ordenadores. Los AGC y los filtros de ruido suelen estar activados por defecto en portátiles y otros dispositivos, de modo que la dinámica está siempre presente en nuestra vida cotidiana. Una compresión mal ajustada puede recortar los sonidos explosivos y sibilantes, dificultando la comprensión del discurso. Esto se percibe como una calidad apagada en las consonantes fuertes al inicio de las palabras, particularmente en la primera palabra de una oración. Otro indicio de un AGC mal configurado se evidencia cuando alguien pronuncia una palabra fuerte seguida de una palabra suave; se percibe el final de la palabra suave pero resulta complicado captar su inicio.

Let’s pasemos a RSI. ¿Cómo difiere la calidad del sonido en la música de la calidad del sonido en el habla?

Hay mucho que es común, pero en cada caso, debe ser cuidadoso para comprender qué es lo bueno. Las personas toman cifras de grabaciones de música clásica realizadas en estudios acústicamente tratados y las aplican al habla. En algunos aspectos, el habla es más fácil que una orquesta, y en otros es más difícil.

Los rangos superiores del ancho de banda, por ejemplo, no son tan importantes para el habla como lo son para algunos instrumentos. Existe un buen argumento para decir que, con cierta percusión, el ancho de banda es el rey, mientras que para el habla, la suavidad debería reinar. Es por eso que un ingeniero de grabación utilizará un micrófono diferente para una persona que el que usaría para una caja o un platillo.

Sé que algunas personas me responderán que las frecuencias entre 18kHz y 20kHz son vitales para el habla, pero simplemente no lo son. En general, los micrófonos más avanzados y costosos que los ingenieros de grabación utilizan para el habla aren’t buenos en esas frecuencias porque simplemente don’t necesitan serlo.

Y esto no es simplemente accidental. Supongamos que se encuentra en un bosque y escucha a una persona a pocos metros de distancia con la boca directamente orientada a su oído (y que es lo suficientemente joven como para seguir escuchando a 20 kHz). Entonces, si gira el rostro de modo que pueda ver al hablante y este se gira de lado, ya no escuchará el componente de 20 kHz, o al menos estará mucho más reducido. Estas frecuencias extremadamente altas no se conservan bien en el mundo natural y, por lo tanto, no son importantes para nosotros, porque la vida sería imposible si lo fueran.

Alcanzar claridad es más matizado de lo que la gente suele representar.

Por lo tanto, con el objetivo de la interpretación simultánea, ¿no resulta esencial contar con acceso a frecuencias de hasta 15.000 Hz?

El desafío aquí es que puedo parecer que estoy diciendo que lo segundo es suficientemente bueno, pero la verdad de todo esto es que lograr claridad es más matizado de lo que la gente suele representar. Comparativamente, un ancho de banda de 15 kHz es mejor que 10 kHz para el habla, que a su vez es mejor que 6 kHz y así sucesivamente.

Sin embargo, una respuesta más plana (más suave) hasta 10 kHz puede ser mejor para la comprensión que una respuesta irregular a 15 kHz. De manera similar, el habla que no ha sido comprimida dinámicamente de forma deficiente con un ancho de banda de 6 kHz puede ser más fácil de comprender que 15 kHz de ancho de banda con una compresión terrible.

Todo esto significa que preservar la respuesta de frecuencia es importante, por supuesto, pero también lo son otros factores, y ninguno logrará que las cosas sean perfectas por sí solo. El problema particular con la respuesta es que, a medida que se avanza en la escala, los rendimientos disminuyen significativamente. Por lo tanto, nuestra tendencia a obsesionarnos con los registros más altos indica que es algo que comprendemos y podemos describir fácilmente, en lugar de reflejar su posición real en la cadena de valor.

Un ancho de banda de 15 kHz o más debe ser parte de un programa completo de buen rendimiento, pero en sentido literal no es esencial para una comprensión fácil y buena, ni lo garantiza.

Se afirma que las plataformas RSI aplican una compresión de rango dinámico que produce un sonido deficiente. ¿Es esto cierto para Interprefy?

No. No hay necesidad de compresión de rango dinámico en la operación general. Eso’ no quiere decir que nunca’ lo usemos. Tenemos algo en el laboratorio en este momento que aplica una compresión que’ es realmente emocionante. Eso’ está diseñado para los oyentes, ya sean audiencia, delegados o intérpretes. Puede activarse por cada persona si lo desea o dejarse desactivado si no’ lo desea. 

La excelencia proviene de aplicar la tecnología en el lugar correcto y de la manera adecuada. Es acerca de la afinación, buscar la perfección en cada paso y aplicar pequeños cambios incrementales en todo el sistema.

Hablemos de los delegados por un momento, porque todos hemos tenido esa experiencia en la que un orador suena simplemente terrible.

Sí. Absolutamente, Dora. Y estoy realmente apasionado por eliminar eso. Los problemas realmente grandes son el equipamiento muy deficiente que utilizan muchos ponentes y su falta de comprensión sobre lo que deben hacer para garantizar la calidad del sonido.

¿Cómo lo resolvemos?

Al igual que casi todo, la solución está en abordar numerosos factores diferentes. Necesitamos que los ponentes utilicen micrófonos de mejor calidad, que estén más informados sobre técnicas de micrófono y que presten más atención al ruido de fondo y al eco. Hay mucho que educar aquí, algo que también iniciamos con nuestra campaña de video de mantenimiento de ponentes.

También podemos usar la tecnología para ayudar aquí. En el futuro, tú y yo podremos volver a este tema y hablar sobre cómo la tecnología puede ayudar a las personas a mejorar su propia calidad y compensar los problemas cuando no pueden.

La gran diferencia está entre un equipo bueno bien configurado y un equipo pobre mal configurado.

Entonces, si comparáramos el sonido recibido a través del hardware, como una consola física, y el recibido a través de Interprefy, no habría mucha diferencia siempre que el ponente utilice el equipo adecuado?

Sí, eso es correcto, Dora. La gran diferencia aquí no está entre el trabajo local y remoto, sino entre equipos de mejor calidad bien configurados y equipos deficientes mal configurados. No existe una diferencia inherente en la calidad de audio de un sistema local basado en hardware. Muchos participantes de reuniones y eventos que utilizan sistemas RSI disponen de micrófonos superiores a los equivalentes en el sitio. Algunos desean participar con dispositivos de menor calidad. Al igual que todo lo demás en los negocios, esto debe gestionarse adecuadamente.

Entonces, ¿cuál es la diferencia entre RSI y una solución basada en hardware?

Lo que RSI ofrece es elección. Elección mediante flexibilidad. Cuando mi esposa quedó embarazada por primera vez, su empleador, un hombre, simplemente le dijo que ya no tenía trabajo. Afortunadamente eso’ es ilegal ahora. Considero que RSI significa que los intérpretes que no’ quieren o no’ pueden viajar pueden trabajar con mayor flexibilidad. No me agradó la actitud desfavorable que sufrió mi esposa y, al igual que creo que los empleadores deben hacer todo lo posible para permitir que las personas trabajen, sin importar sus condiciones o necesidades de estilo de vida, considero que nos corresponde a nosotros, los proveedores del sistema, incorporar también esa flexibilidad.

Las soluciones RSI también son flexibles para las organizaciones. Puede celebrar una conferencia o reunión en cualquier lugar y configurar o modificar la configuración al instante. Recientemente ayudamos a un astronauta a hablar con el mundo mientras estaba en la Estación Espacial Internacional. Insistir en que un astronauta asistiera en persona, por supuesto, habría sido ridículo.

Volviendo a la compresión, ¿qué le diría a quienes solicitan eliminar la compresión por completo?

Eliminar la compresión, en cualquiera de sus formas, no es una solución milagrosa. Permítame enfatizar nuevamente que no existe una solución milagrosa. Parte de la solución integral consiste en erradicar el uso inadecuado de la compresión, tanto la compresión dinámica deficiente como la compresión de tasa de bits pobre. Esto implica contar con ingenieros en la industria que comprendan la tecnología y la dominen en detalle.

¿Qué pasa si se usa más de una función de compresión una tras otra? ¿Es eso automáticamente malo?

Esto se conoce como compresión en cascada. No, no es automáticamente malo tampoco para la compresión dinámica o de tasa de bits.

Existen problemas específicos con la compresión en cascada y, al diseñar soluciones, es necesario trabajar arduamente. Es muy razonable preocuparse por la compresión en cascada, ya que requiere mucho esfuerzo para que funcione, pero si se cuenta con la competencia adecuada, puede lograrse. Y lograrlo de manera excelente. Tomando la compresión dinámica, por ejemplo, dos de las mayores innovaciones de audio jamás creadas surgieron del uso de la compresión dinámica en cascada.

Algunas personas parecen ser particularmente buenas evaluando factores como la compresión; ¿debería usted utilizarlas para ayudarle?

Solo hay una manera de evaluar el audio, y es lo que denominamos pruebas a ciegas. Idealmente, pruebas doble ciego. Si alguien le asegura que es especialmente competente para detectar problemas de audio, pregúntele si lo hizo en una prueba a ciegas, es decir, una prueba en un programa donde no saben cuál es cuál y está dirigida por una persona ajena a la evaluación. Todas las pruebas también deben incluir una gama de oyentes.

Muchas personas, probablemente la mayoría, creen que tienen una audición excepcional, pero solo una de cada veinte lo tiene. Es como si todos pensáramos que somos excelentes conductores.

Un buen sonido es algo que se logra tomando mucho cuidado y trabajando de manera holística.

Algunas personas parecen ser muy dogmáticas respecto a la calidad del sonido y cómo lograrla. ¿Cuál es su respuesta?

Las personas que se expresan en términos binarios, que hablan en ‘musts’ y ‘must nots’ están, según mi experiencia, equivocadas. No me agrada ver que la compresión u otra herramienta de audio reciba un nombre negativo injustificado. No porque sea particularmente aficionado a ella, o un defensor de la compresión en particular, sino porque un buen sonido es algo que se logra cuidando mucho y trabajando de manera holística. Los verdaderos perfeccionistas son no binarios, utilizan todo el conjunto de herramientas y no se inclinan hacia reducciones simplistas.

Todo el procesamiento de sonido puede realizarse de forma deficiente o adecuada. Cuando se hace bien, significa que se utiliza la configuración correcta y se aplica donde resulta beneficiosa. La compresión dinámica puede ser terrible si se aplica incorrectamente, pero eso no significa que sea universalmente errónea. Aplicada correctamente, es un activo increíble.

Dora Murgu

Escrito por Dora Murgu

Conozca los últimos desarrollos en Interprefy por Dora Murgu, Jefa de Capacitación y Compromiso en Interprefy