Hemos subido este artículo a nuestro podcast Interprefied y ahora está disponible en su directorio de podcast preferido.
Escucha y descarga el podcast a continuación:
Disponible para descargar en:
La calidad del sonido nos acompaña todo el día. Desde poner la radio por la mañana hasta ver la nueva serie de televisión a altas horas de la noche, un buen audio es algo que a menudo damos por sentado. Si bien suele ser bastante fácil detectar un mal audio, una buena calidad de audio es, de hecho, un asunto bastante complejo. Un buen ejemplo es una discusión que lleva una década entre los amantes del vinilo y otros audiófilos sobre qué formato ofrece una calidad de sonido superior: el CD o el vinilo.
En la interpretación remota, es fundamental poder recibir y enviar audio de calidad para garantizar un procesamiento preciso de la información y una experiencia de audio agradable, protegiendo la audición de las personas.
Como plataforma que prioriza el audio, trabajamos constantemente en nuevas formas de influir en el comportamiento de los altavoces , además de implementar soluciones de audio innovadoras que garantizan una calidad de audio superior. Un tema recurrente es que la compresión de sonido puede influir positivamente en la experiencia sonora, si se aplica correctamente.
Nos sentamos con Richard Schiller, ingeniero de audio y gerente sénior de productos de Interprefy para comprender qué es la compresión de sonido, cómo se utiliza en RSI y qué influye en la calidad del sonido.
Hola Richard, cuéntanos un poco sobre tus antecedentes y lo que haces.
Hola Dora, me alegra volver a hablar contigo. Mi puesto en Interprefy es el de Gerente Senior de Producto. Me encargo de la dirección y los detalles del producto. Además, soy ingeniero de sonido. Trabajé originalmente en la mayor organización de radiodifusión del mundo, el Servicio Mundial de la BBC. Esa experiencia me lleva a obsesionarme con la claridad y la consistencia.
La constancia fue clave para que la radio funcionara a gran escala, y la claridad fue la esencia misma de lo que ofrecíamos. También he trabajado en grabación musical y televisión. He desempeñado la mayoría de los trabajos en esa profesión, incluyendo productor, director, presentador y guionista.
Entonces eres la persona adecuada para responder a la pregunta del millón: ¿qué es la compresión?
Hay dos cosas diferentes y sin relación que se denominan compresión de sonido: originalmente, existía la compresión dinámica, que es un circuito o, actualmente, un algoritmo que controla automáticamente el nivel de sonido. Esta se utiliza principalmente para reducir el rango dinámico (la distancia entre los sonidos más suaves y los más fuertes). Posteriormente, surgió la reducción de la tasa de bits, un sistema para reducir la cantidad de datos de audio que deben almacenarse o transportarse.
La compresión dinámica y la reducción de la tasa de bits se pueden utilizar bien o mal.
Entonces ¿son buenos o malos?
Ninguna. Como casi todo, estas dos técnicas pueden usarse bien o mal. Si se usan mal, no son buenas, pero ninguna de las dos formas de compresión las considera intrínsecamente malas.
La compresión dinámica es básicamente como tener un dispositivo que controla el nivel de sonido y baja el volumen cuando el audio es demasiado alto. Luego lo sube cuando el audio se vuelve más bajo. Ayuda a escuchar con la misma precisión tanto los pasajes fuertes como los suaves. Es prácticamente igual que una persona con control de volumen, que baja el volumen. Y quiero recalcar que la compresión dinámica consiste en reducir el volumen, de ahí su nombre.
Entonces, ¿de dónde surge la preocupación por la compresión?
La compresión dinámica reduce el volumen, lo cual suele ser indeseable, por lo que se le añade un control de volumen preestablecido para aumentarlo. Dado que la compresión ecualiza el nivel de la señal, hay dos opciones: puede configurarse para que sea más suave, pero más fácil de escuchar, o para que sea más fuerte y más llamativo. Me permito salirme un momento del tema y hacer una observación importante: si crees que el sonido está demasiado alto, bájalo. Controla siempre tu propio nivel de escucha.
No solo el nivel puede ser incorrecto, sino también las constantes de tiempo de un compresor. Finalmente, está la relación de compresión. Esta suele configurarse demasiado agresivamente, lo que es la causa más común de que la compresión haga que la voz sea incomprensible.
Una de las aplicaciones más molestas son los circuitos de Control Automático de Ganancia (AGC) mal diseñados, tanto en equipos antiguos como en algoritmos utilizados por algunas PC. Los AGC y las puertas de ruido suelen estar activados por defecto en portátiles y otros dispositivos. Por lo tanto, la dinámica está siempre presente en nuestras vidas. Una compresión mal configurada puede recortar los sonidos explosivos y sibilantes, dificultando la comprensión del habla. Esto se puede percibir como una calidad apagada en las consonantes duras al comienzo de las palabras, especialmente en la primera palabra de una oración. Otra señal de un AGC mal configurado es cuando alguien dice una palabra en voz alta seguida de una en voz baja y se oye el final de esta última, pero cuesta oír el comienzo.
Hablemos del RSI. ¿En qué se diferencia la calidad del sonido en la música de la calidad del sonido en el habla?
Hay muchas cosas en común, pero en cada caso, hay que tener cuidado de entender qué es bueno. Se toman números de grabaciones de música clásica realizadas en estudios con tratamiento acústico y se aplican al habla. En algunos aspectos, el habla es más fácil que una orquesta, y en otros es más difícil.
Los rangos superiores del ancho de banda, por ejemplo, no son tan importantes para el habla como para algunos instrumentos. Hay buenos argumentos para afirmar que, con cierta percusión, el ancho de banda es fundamental, mientras que para el habla, la suavidad debería ser la clave. Por eso, un ingeniero de grabación usará un micrófono diferente para una persona que para una caja o un platillo.
Sé que algunos me replicarán que las frecuencias entre 18 kHz y 20 kHz son vitales para el habla, pero simplemente no lo son. En general, los mejores y más caros micrófonos que usan los ingenieros de grabación para el habla no son buenos en esas frecuencias porque simplemente no lo necesitan.
Y esto no es solo accidental. Imaginemos que estás en un bosque escuchando a una persona a pocos metros de distancia con la boca directamente frente a tu oído (y eres lo suficientemente joven como para poder oír a 20 kHz). Si giras la cara para ver a quien te habla y esta se gira de lado, ya no oirías el componente de 20 kHz, o al menos se reduciría mucho. Estas frecuencias tan altas no se conservan bien en la naturaleza, por lo que no son importantes para nosotros, porque la vida sería imposible si así fuera.
Lograr claridad es un proceso más matizado de lo que a la gente le gusta representar.
Entonces, para efectos de interpretación simultánea, ¿no es esencial tener acceso a frecuencias de hasta 15.000 Hz?
El reto aquí es que puedo parecer que digo que con lo segundo mejor basta, pero la verdad es que lograr claridad es más matizado de lo que a la gente le gusta representar. En términos similares, un ancho de banda de 15 kHz es mejor que uno de 10 kHz para el habla, que a su vez es mejor que uno de 6 kHz, y así sucesivamente.
Sin embargo, una respuesta más plana (más fluida) hasta 10 kHz puede ser más comprensiva que una respuesta irregular hasta 15 kHz. De igual manera, el habla que no ha sido comprimida dinámicamente de forma deficiente con un ancho de banda de 6 kHz puede ser más fácil de comprender que una de 15 kHz con un ancho de banda de compresión deficiente.
Todo esto significa que preservar la respuesta de frecuencia es importante, por supuesto, pero también lo son otros factores, y ninguno perfeccionará la respuesta por sí solo. El problema con la respuesta es que, a medida que se asciende en la escala, los retornos disminuyen significativamente. Por lo tanto, nuestra tendencia a obsesionarnos con los registros más agudos indica que es algo que entendemos y podemos describir fácilmente, en lugar de reflejar su verdadera posición en la cadena de valor.
Un ancho de banda de 15 kHz o más debe ser parte de todo un programa de buen desempeño, pero en un sentido literal no es esencial para una comprensión buena y fácil ni la garantiza.
Se afirma que las plataformas RSI aplican una compresión de rango dinámico que produce un sonido deficiente. ¿Es esto cierto en el caso de Interprefy?
No. No se necesita compresión de rango dinámico en operaciones generales. Esto no significa que no la usemos nunca. Actualmente, tenemos un sistema en el laboratorio que aplica una compresión realmente emocionante. Está diseñado para oyentes, ya sean público, delegados o intérpretes. Cada persona puede activarlo si lo desea o desactivarlo si no.
La excelencia proviene de aplicar la tecnología en el lugar y la forma adecuados. Se trata de perfeccionar cada paso y aplicar pequeños cambios graduales en todo el sistema.
Hablemos de los delegados por un momento, porque todos hemos tenido esa experiencia en la que un orador suena horrible.
Sí. Totalmente, Dora. Y me apasiona eliminar eso. Los grandes problemas son los equipos de baja calidad que usan muchos oradores y su desconocimiento de lo que deben hacer para garantizar la calidad del sonido.
¿Cómo solucionamos esto?
Como en casi todo, la solución reside en abordar diversos factores. Necesitamos que los oradores utilicen mejores micrófonos, que conozcan mejor las técnicas de microfonía y que presten más atención al ruido de fondo y al eco. Hay mucha formación que impartir en este ámbito, algo que también iniciamos con nuestra campaña de vídeo sobre limpieza de oradores .
También podemos usar la tecnología para ayudar en este aspecto. En el futuro, podemos retomar este tema y hablar sobre cómo la tecnología puede ayudar a las personas a mejorar su propia calidad y compensar los problemas cuando no pueden hacerlo.
La gran diferencia está entre un buen equipo bien configurado y un mal equipo, mal configurado.
Entonces, si comparáramos el sonido recibido a través de hardware, como una consola física, y el recibido a través de Interprefy, ¿no habría mucha diferencia siempre que el hablante utilice el equipo apropiado?
Sí, así es, Dora. La gran diferencia no radica en el trabajo local o remoto, sino en un equipo de mejor calidad y bien configurado, y uno de peor calidad y mal configurado. No existe una diferencia inherente en la calidad de audio de un sistema local basado en hardware. Muchos participantes en reuniones y eventos que usan sistemas RSI tienen micrófonos mejores que sus equivalentes locales. Algunos prefieren participar con dispositivos de peor calidad. Como todo en los negocios, requiere una gestión adecuada.
Entonces, ¿cuál es la diferencia entre RSI y una solución basada en hardware?
Lo que RSI ofrece es elección. Elección a través de la flexibilidad. Cuando mi esposa se embarazó por primera vez, su empleador, un hombre, simplemente le dijo que ya no tenía trabajo. Afortunadamente, eso ahora es ilegal. Me gusta pensar que RSI significa que los intérpretes que no quieren o no pueden viajar pueden trabajar con mayor flexibilidad. No me gustó la mala actitud que sufrió mi esposa y, así como creo que los empleadores deberían hacer todo lo posible para que las personas puedan trabajar, sin importar su condición o estilo de vida, creo que nos corresponde a nosotros, los proveedores del sistema, incorporar también esa flexibilidad.
Las soluciones RSI también son flexibles para las organizaciones. Puede celebrar una conferencia o reunión en cualquier lugar y configurarla o modificarla al instante. Recientemente, ayudamos a un astronauta a comunicarse con el mundo desde la Estación Espacial Internacional. Insistir en que un astronauta asistiera en persona habría sido, por supuesto, absurdo.
Volviendo a la compresión, ¿qué les dirías a aquellos que piden eliminar la compresión por completo?
Eliminar la compresión, cualquiera de sus formas, no es una solución mágica. Quiero recalcar que no existe una solución mágica. Parte de la solución integral consiste en eliminar el mal uso de la compresión, tanto la compresión dinámica deficiente como la compresión de baja tasa de bits. Esto implica contar con ingenieros que trabajen en la industria y que comprendan la tecnología a fondo.
¿Qué ocurre si se usan varias funciones de compresión seguidas? ¿Es automáticamente incorrecto?
Esto se conoce como compresión en cascada. No, no es necesariamente perjudicial ni para la compresión dinámica ni para la compresión de velocidad de bits.
La compresión en cascada presenta problemas específicos, y al diseñar soluciones, es necesario trabajar duro. Es razonable preocuparse por la compresión en cascada, ya que requiere mucho esfuerzo para que funcione, pero si se es competente, se puede lograr. Y se hace muy bien. Por ejemplo, la compresión dinámica, dos de las mayores innovaciones en audio de la historia, surgieron gracias a su uso.
Algunas personas parecen ser particularmente buenas a la hora de evaluar factores como la compresión, ¿debería utilizarlas para ayudarle?
Solo hay una forma de evaluar el audio: las pruebas a ciegas. Idealmente, se trata de pruebas doble ciego. Si alguien le dice que tiene una capacidad auditiva excepcional, pregúntele si lo hizo en una prueba a ciegas, es decir, en un programa donde no se sabe qué es qué y adónde lo dirige alguien ajeno a la evaluación. Todas las pruebas también deben utilizar una variedad de oyentes.
Mucha gente, probablemente la mayoría, cree tener una audición excepcional, pero solo una de cada veinte lo tiene. Es como si todos creyéramos ser excelentes conductores.
Un buen sonido es algo que se consigue con mucho cuidado y trabajando de forma integral.
Algunas personas parecen tener opiniones muy firmes sobre la calidad del sonido y cómo lograrla. ¿Cuál es su respuesta?
La experiencia me ha demostrado que quienes hablan en términos binarios, que hablan de "imprescindibles" y "no imprescindibles", se equivocan. No me gusta que la compresión ni ninguna otra herramienta de audio reciba una mala reputación inmerecida. No porque me guste especialmente ni porque sea un defensor de la compresión en particular, sino porque un buen sonido se consigue con mucho cuidado y trabajando de forma integral. Los verdaderos perfeccionistas no son binarios, utilizan todas las herramientas y no son dados a reducciones simplistas.
Todo procesamiento de sonido puede ser deficiente o bien realizado. Un buen procesamiento implica usar la configuración correcta y aplicarla donde sea beneficioso. La compresión dinámica puede ser pésima si se aplica mal, pero eso no significa que sea universalmente incorrecta. Aplicada correctamente, es una ventaja increíble.





Más enlaces de descarga



