banner

Blog

Dec 03, 2023

3 preguntas: cómo los generadores de imágenes de IA podrían ayudar a los robots

Imagen anterior Imagen siguiente

Los generadores de imágenes de IA, que crean vistas fantásticas en la intersección de los sueños y la realidad, aparecen en todos los rincones de la web. Su valor de entretenimiento se demuestra por un tesoro en constante expansión de imágenes caprichosas y aleatorias que sirven como portales indirectos a los cerebros de los diseñadores humanos. Un mensaje de texto simple produce una imagen casi instantánea, satisfaciendo nuestros cerebros primitivos, que están programados para la gratificación instantánea.

Aunque aparentemente incipiente, el campo del arte generado por IA se remonta a la década de 1960 con los primeros intentos de utilizar enfoques basados ​​en reglas simbólicas para crear imágenes técnicas. Si bien la progresión de modelos que desenredan y analizan palabras ha ganado una sofisticación cada vez mayor, la explosión del arte generativo ha provocado un debate sobre los derechos de autor, la desinformación y los sesgos, todo sumido en exageraciones y controversias. Yilun Du, estudiante de doctorado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y afiliado al Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, desarrolló recientemente un nuevo método que hace que los modelos como DALL-E 2 sean más creativos y comprendan mejor la escena. Aquí, Du describe cómo funcionan estos modelos, si esta infraestructura técnica se puede aplicar a otros dominios y cómo trazamos la línea entre la IA y la creatividad humana.

P: Las imágenes generadas por IA usan algo llamado modelos de "difusión estable" para convertir palabras en imágenes asombrosas en solo unos momentos. Pero por cada imagen utilizada, generalmente hay un ser humano detrás de ella. Entonces, ¿cuál es la línea entre la IA y la creatividad humana? ¿Cómo funcionan realmente estos modelos?

A: Imagine todas las imágenes que podría obtener en la Búsqueda de Google y sus patrones asociados. Esta es la dieta con la que se alimentan estos modelos. Están capacitados en todas estas imágenes y sus leyendas para generar imágenes similares a los miles de millones de imágenes que ha visto en Internet.

Digamos que una modelo ha visto muchas fotos de perros. Está entrenado para que cuando reciba un mensaje de entrada de texto similar como "perro", pueda generar una foto que se parece mucho a las muchas fotos de perros que ya se han visto. Ahora, más metodológicamente, cómo funciona todo esto se remonta a una clase muy antigua de modelos llamados "modelos basados ​​en energía", que se originaron en los años 70 u 80.

En los modelos basados ​​en energía, se construye un paisaje energético sobre imágenes, que se utiliza para simular la disipación física para generar imágenes. Cuando echas un punto de tinta en el agua y se disipa, por ejemplo, al final, solo obtienes esta textura uniforme. Pero si intenta revertir este proceso de disipación, gradualmente obtiene el punto de tinta original en el agua nuevamente. O digamos que tienes esta torre de bloques muy intrincada, y si la golpeas con una pelota, se derrumba en una pila de bloques. Esta pila de bloques está entonces muy desordenada, y no tiene realmente mucha estructura. Para resucitar la torre, puedes intentar invertir este proceso de plegado para generar tu pila original de bloques.

La forma en que estos modelos generativos generan imágenes es muy similar, donde, inicialmente, tienes esta imagen realmente agradable, donde comienzas con este ruido aleatorio, y básicamente aprendes cómo simular el proceso de cómo revertir este proceso de ir del ruido a su imagen original, donde intenta refinar iterativamente esta imagen para hacerla más y más realista.

En términos de cuál es la línea entre la IA y la creatividad humana, se puede decir que estos modelos están realmente entrenados en la creatividad de las personas. Internet tiene todo tipo de pinturas e imágenes que la gente ya ha creado en el pasado. Estos modelos están capacitados para recapitular y generar las imágenes que han estado en internet. Como resultado, estos modelos son más como cristalizaciones de aquello en lo que la gente ha invertido su creatividad durante cientos de años.

Al mismo tiempo, debido a que estos modelos están entrenados en lo que los humanos han diseñado, pueden generar piezas de arte muy similares a las que los humanos han hecho en el pasado. Pueden encontrar patrones en el arte que la gente ha hecho, pero es mucho más difícil para estos modelos generar fotos creativas por sí mismos.

Si intenta ingresar un mensaje como "arte abstracto" o "arte único" o similar, realmente no comprende el aspecto creativo del arte humano. Los modelos están, más bien, recapitulando lo que la gente ha hecho en el pasado, por así decirlo, en lugar de generar arte fundamentalmente nuevo y creativo.

Dado que estos modelos están entrenados en una gran cantidad de imágenes de Internet, es probable que muchas de estas imágenes tengan derechos de autor. No sabe exactamente qué está recuperando el modelo cuando genera nuevas imágenes, por lo que hay una gran pregunta de cómo puede determinar si el modelo está usando imágenes con derechos de autor. Si el modelo depende, en cierto sentido, de algunas imágenes con derechos de autor, ¿entonces esas nuevas imágenes tienen derechos de autor? Esa es otra cuestión a abordar.

P: ¿Cree que las imágenes generadas por los modelos de difusión codifican algún tipo de comprensión sobre los mundos naturales o físicos, ya sea dinámica o geométricamente? ¿Hay esfuerzos para "enseñar" a los generadores de imágenes los conceptos básicos del universo que los bebés aprenden tan pronto?

A: ¿Entienden, en código, alguna comprensión de los mundos natural y físico? creo que definitivamente Si le pide a un modelo que genere una configuración estable de bloques, definitivamente genera una configuración de bloques que es estable. Si lo dices, genera una configuración inestable de bloques, sí se ve muy inestable. O si dices "un árbol al lado de un lago", es más o menos capaz de generar eso.

En cierto sentido, parece que estos modelos han capturado un gran aspecto del sentido común. Pero el problema que nos hace, todavía, muy lejos de comprender verdaderamente el mundo natural y físico es que cuando tratas de generar combinaciones poco frecuentes de palabras que tú o yo en nuestro trabajo mental podemos imaginar muy fácilmente, estos modelos no pueden.

Por ejemplo, si dices "pon un tenedor encima de un plato", eso sucede todo el tiempo. Si le pide al modelo que genere esto, puede hacerlo fácilmente. Si dices, "pon un plato encima de un tenedor", nuevamente, es muy fácil para nosotros imaginar cómo se vería esto. Pero si pones esto en cualquiera de estos modelos grandes, nunca obtendrás un plato encima de un tenedor. En cambio, obtienes un tenedor encima de un plato, ya que los modelos están aprendiendo a recapitular todas las imágenes en las que se ha entrenado. Realmente no puede generalizar tan bien a combinaciones de palabras que no ha visto.

Un ejemplo bastante conocido es un astronauta montando a caballo, lo que el modelo puede hacer con facilidad. Pero si dices un caballo montando a un astronauta, todavía genera una persona montando un caballo. Parece que estos modelos capturan muchas correlaciones en los conjuntos de datos en los que están entrenados, pero en realidad no capturan los mecanismos causales subyacentes del mundo.

Otro ejemplo que se usa comúnmente es si obtiene descripciones de texto muy complicadas, como un objeto a la derecha de otro, el tercer objeto en el frente y un tercero o cuarto volando. Realmente solo es capaz de satisfacer quizás uno o dos de los objetos. Esto podría deberse en parte a los datos de entrenamiento, ya que es raro tener subtítulos muy complicados. Pero también podría sugerir que estos modelos no están muy estructurados. Puede imaginar que si recibe indicaciones de lenguaje natural muy complicadas, no hay forma en que el modelo pueda representar con precisión todos los detalles de los componentes.

P: Recientemente se le ocurrió un nuevo método que utiliza múltiples modelos para crear imágenes más complejas con una mejor comprensión del arte generativo. ¿Existen aplicaciones potenciales de este marco fuera de los dominios de imagen o texto?

A: Realmente nos inspiró una de las limitaciones de estos modelos. Cuando les das a estos modelos descripciones de escenas muy complicadas, en realidad no pueden generar correctamente imágenes que coincidan con ellas.

Un pensamiento es que, dado que es un modelo único con un gráfico computacional fijo, lo que significa que solo puede usar una cantidad fija de cómputo para generar una imagen, si obtiene un mensaje extremadamente complicado, no hay forma de que pueda usar más poder computacional para generar eso imagen.

Si le doy a un ser humano una descripción de una escena que tiene, digamos, 100 líneas de largo en comparación con una escena que tiene una línea de largo, un artista humano puede dedicar mucho más tiempo a la primera. Estos modelos realmente no tienen la sensibilidad para hacer esto. Proponemos, entonces, que, dadas indicaciones muy complicadas, en realidad puede componer muchos modelos independientes diferentes juntos y hacer que cada modelo individual represente una parte de la escena que desea describir.

Encontramos que esto permite que nuestro modelo genere escenas más complicadas, o aquellas que generan con mayor precisión diferentes aspectos de la escena juntos. Además, este enfoque se puede aplicar generalmente en una variedad de dominios diferentes. Si bien la generación de imágenes es probablemente la aplicación más exitosa en la actualidad, los modelos generativos en realidad han visto todo tipo de aplicaciones en una variedad de dominios. Puede usarlos para generar diferentes comportamientos de robots diversos, sintetizar formas 3D, permitir una mejor comprensión de la escena o diseñar nuevos materiales. Potencialmente, podría componer múltiples factores deseados para generar el material exacto que necesita para una aplicación en particular.

Una cosa que nos ha interesado mucho es la robótica. De la misma manera que puede generar diferentes imágenes, también puede generar diferentes trayectorias de robots (la ruta y el cronograma), y al componer diferentes modelos juntos, puede generar trayectorias con diferentes combinaciones de habilidades. Si tengo especificaciones de lenguaje natural de saltar versus evitar un obstáculo, también podría componer estos modelos juntos y luego generar trayectorias de robot que puedan saltar y evitar un obstáculo.

De manera similar, si queremos diseñar proteínas, podemos especificar diferentes funciones o aspectos, de manera análoga a cómo usamos el lenguaje para especificar el contenido de las imágenes, con descripciones similares al lenguaje, como el tipo o la funcionalidad de la proteína Luego podríamos componerlos juntos para generar nuevas proteínas que potencialmente puedan satisfacer todas estas funciones dadas.

También exploramos el uso de modelos de difusión en la generación de formas 3D, donde puede usar este enfoque para generar y diseñar activos 3D. Normalmente, el diseño de activos 3D es un proceso muy complicado y laborioso. Al componer diferentes modelos juntos, se vuelve mucho más fácil generar formas como "Quiero una forma 3D con cuatro patas, con este estilo y altura", automatizando potencialmente partes del diseño de activos 3D.

Elemento anterior Elemento siguiente

P: R: P: R: P: R:
COMPARTIR