¿Quieres recibir notificaciones de alertas?

17°
29 de Marzo,  Salta, Centro, Argentina
PUBLICIDAD

Los mensajes de texto convertidos en videos

Martes, 04 de octubre de 2022 01:48

Meta (*) ha presentado un sistema de inteligencia artificial que genera videos cortos basados en indicaciones de texto. Es un gran avance en la IA generativa que plantea algunas cuestiones éticas difíciles. Make-A-Video te permite escribir una serie de palabras, como "Un perro vestido con un traje de superhéroe con una capa roja volando por el cielo", y luego genera un clip de cinco segundos que, si bien es bastante preciso, tiene la estética de un viejo video casero.

Alcanzaste el límite de notas gratuitas
inicia sesión o regístrate.
Alcanzaste el límite de notas gratuitas
Nota exclusiva debe suscribirse para poder verla

Meta (*) ha presentado un sistema de inteligencia artificial que genera videos cortos basados en indicaciones de texto. Es un gran avance en la IA generativa que plantea algunas cuestiones éticas difíciles. Make-A-Video te permite escribir una serie de palabras, como "Un perro vestido con un traje de superhéroe con una capa roja volando por el cielo", y luego genera un clip de cinco segundos que, si bien es bastante preciso, tiene la estética de un viejo video casero.

Aunque el efecto es bastante tosco, el sistema ofrece un vistazo temprano de lo que vendrá a continuación para la inteligencia artificial generativa, y es el próximo paso obvio de los sistemas de IA de texto a imagen que han causado gran entusiasmo este año.

El anuncio de Meta de Make-A-Video, que aún no está disponible para el público, probablemente incitará a otros laboratorios de IA a lanzar sus propias versiones. También plantea algunas grandes cuestiones éticas. Solo en el último mes, el laboratorio de IA OpenAI puso a disposición su último sistema de IA de texto a imagen DALL-E, y la startup Stability.AI lanzó Stable Diffusion, un sistema de texto a imagen de código abierto.

Pero la IA de texto a video presenta algunos desafíos aún mayores. Por un lado, estos modelos necesitan una gran cantidad de potencia informática. Son un impulso computacional aún mayor que los grandes modelos de IA de texto a imagen, que usan millones de imágenes para entrenar, porque armar un solo video corto requiere cientos de imágenes. Eso significa que en realidad solo las grandes empresas de tecnología pueden permitirse construir estos sistemas en el futuro previsible. También son más difíciles de entrenar, porque no hay conjuntos de datos a gran escala de videos de alta calidad combinados con texto.

Para solucionar esto Meta combinó datos de tres conjuntos de datos de imágenes y videos de código abierto para entrenar su modelo. Los conjuntos de datos estándar de imágenes de texto de imágenes fijas etiquetadas ayudaron a la IA a aprender cómo se llaman los objetos y cómo se ven. Y una base de datos de videos lo ayudó a aprender cómo se supone que esos objetos se mueven en el mundo. La combinación de los dos enfoques ayudó a Make-A-Video, que se describe en un artículo no revisado por pares publicado hoy, a generar videos a partir de texto a escala.

Tanmay Gupta, científico investigador de visión por computadora en el Instituto Allen de Inteligencia Artificial, dice que los resultados de Meta son prometedores. Los videos que se comparten muestran que el modelo puede capturar formas 3D a medida que gira la cámara. El modelo también tiene cierta noción de profundidad y comprensión de la iluminación. Gupta dice que algunos detalles y movimientos están hechos decentemente y son convincentes.

Sin embargo, "hay mucho espacio para que la comunidad de investigación mejore, especialmente si estos sistemas se van a utilizar para la edición de video y la creación de contenido profesional", agrega. En particular, todavía es difícil modelar interacciones complejas entre objetos.

En el video generado por el mensaje "El pincel de un artista pintando en un lienzo", el pincel se mueve sobre el lienzo, pero los trazos en el lienzo no son realistas. "Me encantaría ver que estos modelos tuvieran éxito en generar una secuencia de interacciones, como 'El hombre toma un libro del estante, se pone las gafas y se sienta a leerlo mientras bebe una taza de café'", Gupta dice.

Por su parte, Meta promete que la tecnología podría "abrir nuevas oportunidades para creadores y artistas". Pero a medida que la tecnología se desarrolla, existe el temor de que pueda aprovecharse como una herramienta poderosa para crear y difundir información errónea y falsificaciones profundas. Puede que sea aún más difícil diferenciar entre contenido real y falso en línea.

El modelo de Meta aumenta las apuestas para la IA generativa tanto técnica como creativamente, pero también "en términos de los daños únicos que podrían causarse a través del video generado en lugar de las imágenes fijas", dice Henry Ajder, un experto en medios sintéticos. "Al menos hoy en día la creación de contenido inexacto en el que la gente pueda creer requiere un poco de esfuerzo", dice Gupta. "En el futuro, puede ser posible crear contenido engañoso con unas pocas pulsaciones de teclas".

Los investigadores que crearon Make-A-Video eliminaron imágenes y palabras ofensivas, pero con conjuntos de datos que consisten en millones y millones de palabras e imágenes, es casi imposible eliminar por completo el contenido sesgado y dañino. Un portavoz de Meta dice que aún no está poniendo el modelo a disposición del público y que "como parte de esta investigación, continuaremos explorando formas de perfeccionar y mitigar el riesgo potencial".

*Mark Zuckerberg anunció en 2021 el cambio de nombre de la compañía Facebook, que ahora se denomina Meta. El servicio de Facebook es ahora una de las subsidiarias de la compañía, junto con Instagram y WhatsApp.

 

PUBLICIDAD
PUBLICIDAD
PUBLICIDAD