En la actualidad, con la creciente popularidad de las videoconferencias, una empresa emergente de IA llamada Sieve ha presentado una tecnología innovadora que podría revolucionar la interacción por video. Su nueva API afirma poder corregir automáticamente el contacto visual en videos con una simple llamada, un avance que promete aumentar el atractivo y la interactividad del contenido de video.

Como es sabido, la falta de contacto visual adecuado en los videos a menudo hace que el contenido parezca frío o impersonal. La nueva tecnología de Sieve pretende solucionar este problema generalizado. La empresa afirma que su API se puede integrar rápidamente en las aplicaciones existentes, ofreciendo a los usuarios una solución práctica.

En comparación con los métodos anteriores, que a menudo tenían resultados deficientes o requerían configuraciones complejas, Sieve afirma haber realizado mejoras significativas. La empresa prevé un amplio uso de esta tecnología en la grabación de pantalla, la edición de video y la transmisión, especialmente en situaciones donde se requiere que el orador mire directamente a la cámara.

El funcionamiento de la tecnología de corrección de la línea de visión en tiempo real de Sieve es bastante ingenioso. Primero, el modelo de IA analiza el área de los ojos, utiliza el reconocimiento facial para localizar las características clave y calcula la posición de la cabeza en el espacio tridimensional. Luego, el IA extrae el área de los ojos por separado, estima el ángulo de visión actual mediante una red neuronal y ajusta los ojos para que parezcan mirar directamente a la cámara.

Para asegurar que el resultado corregido sea natural, el sistema ajusta dinámicamente el grado de corrección según los cambios en la posición de la cabeza. Aún más ingenioso es que la IA también puede reconocer los parpadeos y las obstrucciones temporales de los ojos, pausando los ajustes en esos momentos para mantener la fluidez natural del video.

Sieve afirma que todo el proceso se puede ejecutar con una latencia mínima, permitiendo la corrección de la línea de visión en tiempo real. Esta tecnología es similar al sistema SieveSync lanzado por la empresa en septiembre, que permite a los usuarios ajustar los movimientos de los labios en el video después de la grabación.

Para que los usuarios puedan experimentar esta tecnología, Sieve ofrece una zona de prueba donde pueden subir sus propios videos para probarla. En cuanto a las aplicaciones comerciales, la API tiene un precio de 0,1 dólares por minuto de video procesado. Además, Sieve proporciona una guía detallada sobre cómo integrar esta tecnología en aplicaciones Python.

Sieve admite que su inspiración proviene en parte de la tecnología de transmisión de Nvidia y de la capacidad de LivePortrait para modificar partes del rostro. Esta fusión e innovación de tecnologías muestra el enorme potencial de la IA en el procesamiento de video.

Con la proliferación del teletrabajo y la educación en línea, la tecnología de Sieve podría desempeñar un papel importante en la mejora de la calidad de la comunicación por video. No solo puede hacer que el contenido de video grabado sea más atractivo, sino que también podría cambiar la experiencia interactiva de las transmisiones en vivo y las videoconferencias. Sin embargo, esta tecnología también ha suscitado debates sobre la autenticidad y la ética, como si, en algunos casos, el ajuste artificial del contacto visual pudiera afectar a la autenticidad de la comunicación.