El audio del videochat es terrible. Pero no tiene por qué serlo.
por James Norman

La nueva normalidad de las reuniones virtuales aparentemente infinitas está cambiando rápidamente las normas sociales y despertando un nuevo interés por la tecnología que nos conecta. Si bien las plataformas de videoconferencia están disponibles desde hace años, no se diseñaron para reemplazar la interacción en persona. Tras un año de superar la «fatiga del zoom», es hora de analizar de nuevo qué funciones y atributos hacen que los usuarios se sientan conectados y cómo se pueden mejorar. Un aspecto importante es el sonido. De hecho, si todas las personas que participan en una conversación pueden oír, se podría decir que es la característica más importante de la interacción en persona.
Un buen sonido nos permite no solo entender las palabras de una conversación, sino también captar el estado de ánimo provocado por la entonación vocal y los sonidos ambientales. El mal sonido, por otro lado, nos frustra. En las videoconferencias con más de dos personas (algo muy común en las horas felices virtuales, las reuniones de equipo y las sesiones colaborativas), los ponentes simultáneos inevitablemente se ahogan unos a otros. Las plataformas de videochat más populares de la actualidad no son compatibles con los diálogos rápidos.
Pero los días de las videoconversaciones no van a ir a ningún lado dado el número de empresas que siguen con las políticas de la FMH. Así que para que las reuniones y otras reuniones sean más productivas (y divertidas), es importante entender por qué la experiencia es tan mala y saber que existen soluciones para los desarrolladores de plataformas de vídeo en el mundo de los videojuegos y la música.
Por qué el sonido de las videoconferencias es horrible
En el nivel más básico, los niveles de los micrófonos varían de un individuo a otro, lo que dificulta compilar la onda sonora de cada persona en una sola transmisión de audio. En algunas plataformas, esto puede provocar un sesgo de los altavoces, ya que gana la persona más ruidosa; en otras, solo se prioriza la transmisión de audio del presentador activo. La interrupción, la repetición y la confusión resultantes del diálogo que experimentamos llevan a las personas a interactuar en el chat de vídeo de forma diferente a lo que lo harían normalmente. Se trata de un problema técnico y todo se debe a lo que se denomina la «fase» entre las ondas sonoras combinadas.
Así es como funciona: dos ondas sonoras de la misma firma de frecuencia que están perfectamente alineadas tienen una diferencia de fase de 0, que denominamos «en fase». Cuando las ondas que están en fase se combinan, como dos personas que dicen exactamente lo mismo al mismo tiempo, producen un sonido que es el doble de alto. El problema se produce cuando dos ondas de sonido en rangos de frecuencia similares están «desfasadas». Cuando las ondas no coinciden, comienzan a cancelarse entre sí, hasta el punto de que dos ondas que son exactamente opuestas se anulan por completo. Los auriculares con cancelación de ruido funcionan a propósito.
En la mayoría de las videollamadas, los problemas con la fase provocan problemas con la capacidad de oír lo que dicen los demás. Cuando las ondas sonoras del diálogo se combinan, se cancelan diferentes partes de las ondas, puntos de amplificación aleatoria del sonido y se establece una frecuencia más ruidosa entre los puntos de entrada y desfase del ciclo de onda.
Hay un problema adicional: la videoconferencia se creó para las reuniones en la oficina, en las que puede esperar un entorno silencioso (aunque incluso en un entorno ideal la mayoría de los servicios tienen puntos débiles). ¿Qué pasa cuando queremos prácticamente tomar un café, socializar, ir a una clase de baile y todas las demás cosas que hacemos normalmente fuera del trabajo? Las plataformas suelen filtrar el sonido para reducir el volumen de las frecuencias cuando la gente no habla; sumado a los problemas de escalonamiento antes mencionados, esto significa que el sonido ambiental no se puede introducir en las videoconferencias actuales sin disminuir aún más (o anular por completo) la inteligibilidad de los diálogos. Así que los sonidos del tráfico de la ciudad, su hip-hop favorito de los 90 de fondo en la cafetería o una canción pop trepidante que despierte el ambiente están reservados para la vida real. Esto es decepcionante. Sin ruido ambiental, sufrimos un silencio que mata el estado de ánimo cuando nos tomamos un descanso de la conversación.
Sin embargo, no necesitamos aceptar esta limitación. Si bien la tecnología del videochat presenta desafíos en torno a la cadencia natural del diálogo y el estado de ánimo ambiental, en otros espacios, como la música y los juegos, la ingeniería de audio ha sido un punto central de avance durante bastante tiempo.
Qué pueden aprender las empresas de videochat de la música y los juegos
Cuando entra en un entorno virtual, por ejemplo, en el modo multijugador de Call of Duty, se sumerge en un punto de vista en primera persona en el que puede pasar horas sin esfuerzo. No es casual que los jugadores se fatiguen menos que los usuarios de una plataforma como Zoom. La experiencia visual se combina con la posibilidad de tener una claridad de audio total con respecto al sonido ambiental, los efectos de sonido de acción, el diálogo virtual de los compañeros de equipo y más. Mientras se esté produciendo una explosión delante de usted, puede oír grillos en el periférico y las voces de sus compañeros de equipo en el centro del escenario a la derecha, todo con sus auriculares. En pocas palabras, esto es posible gracias al mapeo (o mezcla) del audio. Al colocar las cosas a una distancia y dirección determinadas del usuario, las ondas sonoras se recopilan con un procesamiento de señales que reduce los desafíos de la fase y el ruido.
Esta analogía también lleva a la música. Aunque no se dé cuenta, es necesario mezclar música desde que empezamos a añadir multitud de sonidos para crear una experiencia singular. En la música, los productores no solo mezclan las voces de los cantantes principales y de fondo, sino que también añaden sin problemas cuerdas, trompas, bajo y otros instrumentos para ofrecer canciones de éxito. Los ingenieros de audio se aseguran de que los instrumentos no choquen, que el volumen de la canción sea el adecuado y que la emoción central de la canción se refleje al organizar correctamente (filtrar, comprimir y más) los sonidos de la composición.
Si compara el audio de la música (o los videojuegos), verá hasta dónde tienen que llegar las videoconferencias. Intente escuchar una de sus canciones favoritas con los ojos cerrados: escuche dónde se encuentra la voz en el escenario sonoro en comparación con otros instrumentos que impulsan la melodía. Entonces, la próxima vez que esté en un chat de Google con otras dos personas en su escritorio, escuche de dónde vienen todas las voces. Se dará cuenta de que en el chat de vídeo el escenario de sonido no se utiliza como debería.
Los desarrolladores de videoconferencias pueden seguir el ejemplo de los ingenieros de audio de la industria de la música, que han sido responsables de ofrecer una experiencia de sonido casi perfecta durante décadas. Piense en cómo podría alinearse esto con el audio de una reunión virtual colaborativa. Imagínese escuchar a una persona más desde la izquierda y otra más desde la derecha, mientras en las instalaciones exteriores del escenario de sonido suena música ambiental. Ahora tiene una interacción más natural y, al dar al escenario de sonido más espacio para impulsar la experiencia de videochat, el cerebro del usuario mapeará mejor el sonido de los diálogos con la fuente de la pantalla. Este enfoque se presta a una mejor orientación del usuario y, en última instancia, se traduce en una reducción de la fatiga del zoom.
Crear un videochat mejor
Con el audio pasando a primer plano como una parte clave de la experiencia del videochat, empresas como Pilotly (de la que soy el CEO) y BlueJeans han tomado medidas para avanzar hacia el futuro de la conversión virtual. Al trabajar con los líderes del sector del procesamiento de audio, ambas empresas han aplicado algoritmos al videochat que han creado más claridad en torno al diálogo mediante una sólida mezcla de audio.
BlueJeans, adquirida recientemente por Verizon, fue uno de los primeros en trabajar con un socio, Dolby, para mejorar su experiencia de usuario. Para poner un diálogo claro en el centro de su propuesta de valor, incorporaron Dolby Voice, un sistema que podía normalizar los niveles de audio, optimizar un ancho de banda de voz determinado, reducir el ruido y hacer algunas mezclas en la nube para evitar cancelaciones cuando varias personas conversan en una reunión.
Otras empresas pueden hacer lo mismo. Dolby está trabajando actualmente para facilitar a las aplicaciones la mejora de sus capacidades de audio. Paul Boustead, arquitecto jefe del Grupo Empresarial de Comunicaciones de Dolby, afirma que ampliar el uso de estas tecnologías es una prioridad para la empresa. «Llevo más de 20 años especializándome en comunicaciones de voz y vídeo, como investigador, ingeniero y arquitecto», afirma. «Me he esforzado mucho para que la comunicación en línea sea lo más natural posible».
La plataforma de videochat de Pilotly, Reelchat, se centra en crear un entorno virtual similar a una experiencia de juego. La primera aplicación de Reelchat fueron los grupos focales virtuales, en los que es importante mantener conversaciones rápidas y fluidas en las que pueda escuchar a más de una persona a la vez, como en una reunión o una happy hour. Esta es una de las razones por las que hemos priorizado el mapeo de audio para ofrecer la máxima comodidad e intuición a los participantes de la conversación. Creemos que la clave para que las interacciones humanas virtuales funcionen es trasladar al usuario a un espacio en el que el sonido exista de forma más natural.
Ajustar y acelerar el ritmo de los avances en la tecnología del videochat será fundamental para el éxito de los negocios, la educación superior y la conexión social, ya que seguimos soportando limitaciones extremas en torno a la interacción en la vida real durante una pandemia. El audio, ignorado durante mucho tiempo como factor central en la experiencia visual del público, es el futuro de la interacción. Los juegos y la música lo entienden, y la próxima evolución de las plataformas de colaboración y reuniones haría bien en emular el mismo tipo de mezcla de música en sus experiencias de usuario.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.