Plain Concepts colabora con el equipo de investigación e IA de Microsoft Corp en el desarrollo de Virtual Stage

Plain Concepts, compañía de origen español y alcance internacional fundada en 2006 para desarrollar soluciones de software con tecnologías Microsoft, ha colaborado con el equipo de investigación e inteligencia artificial (IA) de Microsoft Corporation en el desarrollo de unos escenarios virtuales (Virtual Stage) que han permitido celebrar online Microsoft Build 2020, la gran cita con los desarrolladores de la compañía de Redmond, en la que desvela las últimas actualizaciones de sus herramientas y servicios.

Construida sobre IA y Azure Kinect, la solución ha permitido a los ponentes de Build dar sus ponencias desde sus domicilios, en estos días de crisis sanitaria, como si estuvieran en un magnífico escenario. A lo largo de 48 horas de sesiones en directo y abiertas para todos los registrados, los desarrolladores han podido disfrutar de las ponencias de los expertos con una calidad de imagen y audio idéntica a la conseguida en un plató.

Este hito se ha logrado gracias a Virtual Stage, una aplicación que aprovecha la potencia del Azure Kinect y de los últimos avances en IA para grabar a los ponentes en sus hogares como si estuvieran en un estudio de grabación profesional hablando delante de un croma. Estas grabaciones se envían a postproducción donde se pueden realizar escenarios virtuales, animaciones o distintas composiciones.

Virtual Stage cuenta con dos componentes: Speaker Recorder App, que permite grabar una conferencia usando uno o dos dispositivos Azure Kinect, y el Background Matting, una app que elimina el fondo con gran calidad, usando un sofisticado modelo de IA y la información de los sensores Azure Kinect.

Calidad de imagen y sonido
La aplicación Speaker Recorder captura la información de color y profundidad de una o dos cámaras Azure Kinect (se pueden usar dos cámaras para grabar dos ángulos de la misma conferencia). Además, el speaker puede utilizar un presentador para desplazarse por las diapositivas de PowerPoint y un micrófono inalámbrico. Cuando terminan, los vídeos se suben a Azure donde son procesados.

En Azure, la aplicación Background Matting utiliza la información de Depth obtenida del Azure Kinect para generar una máscara por segmentación del cuerpo y posteriormente un modelo de IA para mejorar la precisión de dicha máscara y aportar un mejor recorte en zonas con pelo o dedos. Esta máscara será utilizada en el paso final para recortar la información de color del ponente y generar un nuevo vídeo con fondo transparente al cual ya se le podrá sustituir el por el de un escenario virtual.

El Background Matting se basa en una nueva técnica de la Universidad de Washington. Debido a la falta de datos de entrenamiento etiquetados que retraten a los humanos de pie, la IA original fue entrenada con imágenes/vídeos cuadrados de 512×512 hasta la cadera o la rodilla.

Para conseguir un primer plano de alta calidad en zonas como el pelo, las manos o los pies se hicieron dos contribuciones importantes al método original. Primero, se reemplazó el paso de segmentación original por los modelos de IA del Azure Body Tracking SDK, consiguiendo una segmentación más tolerante con las similitudes de color y las zonas ambiguas de la imagen. Después, se dividió el cuerpo en dos imágenes cuadradas con una pequeña superposición y procesándolas por separado. Esto permite al modelo `ver´ mejor en zonas difíciles como la sombra entre los pies, sin perder precisión en el cabello o las manos.

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.