Cómo la inteligencia artificial revoluciona la fotografía.
El mundo está cambiando muy deprisa, pero no es sólo Internet lo que está impulsando esta revolución, aunque nos ha traído diferentes formas de entretenimiento que antes no podíamos imaginar: juegos en línea, casinos en línea que la gente puede utilizar , deportes en línea y música en línea. La Inteligencia Artificial también desempeña su papel en todos los sectores: desde la industria a los servicios, pasando por el mundo del arte.
Inteligencia artificial y fotografía: una combinación revolucionaria
Si hasta la fecha la mayoría de los avances en el campo de la fotografía se han producido en el ámbito de la óptica, las cosas están cambiando: con la Inteligencia Artificial, el progreso tecnológico trascenderá las leyes de la física. Basta pensar en nuevas herramientas como el reconocimiento facial o de imágenes, o el tratamiento de archivos.
Fotografía profesional e inteligencia artificial
Aunque la mayoría de las innovaciones, por supuesto, conciernen al vasto mundo de los consumidores, con la Inteligencia Artificial también hemos visto fantásticos desarrollos dedicados a los profesionales de la fotografía, empezando por la parte del procesamiento de la foto, inmediatamente después de haberla tomado.
Un ejemplo por encima de todos es el procesamiento RAW, para el que hemos llegado a la recuperación incluso de archivos extremadamente subexpuestos. Pero en el futuro, esta tecnología permitirá mejorar las imágenes captadas por cámaras sin espejo y drones, así como por cámaras de vigilancia.
Inteligencia artificial en fotografía: ¿cambiará los paradigmas de nuestras vidas y nuestra creatividad?
Los últimos avances en el campo de la fotografía digital se han producido a una velocidad supersónica que cada vez nos sentimos más cerca de la famosa serie STAR TREK: sólo necesitamos teletransporte .
Las grandes empresas llevan años financiando la investigación en este campo para equipar sus dispositivos smartphone con cámaras más potentes, chips de última generación y sistemas de Inteligencia Artificial cada vez más sensibles.
A estas alturas ya no tiene sentido quejarse de que hasta una persona con cero conocimiento de arte, puede crear imágenes agradables, podemos decir que es obsoleto perder el tiempo maldiciendo a la tecnología que ha rebajado la calidad de la fotografía.
Esto es cierto, pero también no lo es tanto. Es un argumento complicado. La mutación se lleva produciendo desde el día del BIG BANG en el espacio, cada día hace más viejo al anterior, o tomamos nota o seguiremos anclados al pasado.
Estamos en la era de la inteligencia artificial y es necesario entender cómo esta nueva modalidad puede ser utilizada y explotada por el profesional y no oponerse, lo que sería una tontería.
La Inteligencia Artificial ha llegado a un nivel de optimización de las fotografías superior a todo lo que cabría esperar hace tan sólo 10 años, como generar archivos de alta resolución para guardarlos y reducirlos tanto sin perder calidad, algo que nos parece obvio es ya una posibilidad donada por las nuevas tecnologías.
Desde un smartphone, podemos tener archivos de alta resolución que ocupan muy poca memoria pero luego conseguir ampliaciones increíbles.
La última frontera, de momento, es de lo que todo el mundo habla: la posibilidad de generar imágenes increíbles con sólo describir lo que queremos ver. Cuanto mejor y más precisos seamos al introducir los datos, más extraordinario será el resultado. Inteligencia artificial generadora de imágenes.
Para probarlo, practica con Crayon, Dall-E 2, Midjourney, Dream, StarryAI, Imagen, Parti.
Se trata de programas de Inteligencia Artificial entrenados para generar imágenes a partir de descripciones de texto introducidas por los usuarios. Se trata de productos cada vez más avanzados, capaces de crear dibujos y gráficos dignos de un profesional.
La novedad está causando cierta inquietud en el mundo del arte, sobre todo entre los creadores de imágenes, que se preguntan si pronto se quedarán sin trabajo.
Por el momento, sólo Crayon está disponible de forma gratuita para el público en general, pero es difícil no preguntarse qué ocurrirá una vez que los modelos impulsados por IA se lancen por completo al mercado. Veremos cosas alucinantes.
De hecho, los resultados son alucinantes. En efecto, los paradigmas están cambiando y necesitamos acelerar nuestras sinapsis para comprender cómo podemos utilizar estos elementos creativos sin dejarnos esclavizar por la banalidad del acto.
Según Mar Hicks, profesora del Instituto de Tecnología de Illinois que estudia la historia de la tecnología, este sistema es tan divertido como peligroso. Craiyon, de hecho, siempre genera una imagen a partir de la descripción, en lugar de filtrar alguna descripción mostrando un error.
A Hicks le preocupa la capacidad del sistema de inteligencia artificial para responder a cualquier solicitud por escrito. Esto puede alimentar algunos estereotipos, ya que la Inteligencia Artificial se basa en datos de Internet, lo que significa que las imágenes que crea también pueden exponer una serie de prejuicios, incluidos los de género, raza y estereotipos sociales.
También son cuestiones a tener en cuenta por el efecto dominó que traerá esta enésima revolución.
Ya me quedé absolutamente asombrada cuando entendí cómo funcionaba SIRI, y luego por el hecho de que podías dictar con la voz y las palabras se escribían solas en el texto blanco del ordenador. Ahora me sorprendo cuando uso el traductor para hablar con amigos de otras nacionalidades, hablamos en una cosa y nos entendemos.
Cada mes se produce un salto al hiperespacio casi difícil de soportar, al menos para las personas muy mayores, me explico, aunque no somos de los que se toman a mal cualquier nueva innovación tecnológica, sino que por el contrario les gusta que los sorprendan, es realmente difícil tomar nota de ella, adentrarse en ella para comprender sus potencialidades y luego traducirlas en posibilidades creativas, porque al final, reconozcámoslo, para los autores que amamos ir lo más lejos posible más allá de todas las fronteras, la búsqueda siempre es esa, la que nos hace decir: "Vale, esto es bonito, pero ¿cómo puedo usarlo? ¿Qué puedo producir con él? ¿Adónde me llevará? ¿Qué fronteras rompe y qué límites puede tener?".
Y hoy nos enfrentamos a nuevas cuestiones de este tipo, ya que es posible hacer que una máquina cree imágenes simplemente dándole unas instrucciones textuales mínimas.
El paso del texto a la imagen es asombroso y la "magia" de la creación es inmediata, de ahí la pregunta sobre el origen de la creatividad, el sentido del arte y la autoría.
No me interesa lo más mínimo cómo funcionan estas tecnologías, ni tengo la habilidad de escuchar a los que saben e intentan explicármelas, pero he encontrado algunos textos que intentan resumir cómo funcionan.
Cómo funcionan los generadores de imágenes.
Los generadores de imágenes se basan en redes generativas adversariales o GAN (Generative Adversarial Networks). Se trata de arquitecturas en las que dos redes neuronales compiten en una especie de juego de suma cero. La red llamada Generador, partiendo de números aleatorios, tiene la tarea de procesar imágenes realistas, intentando engañar al Discriminador.
La red Discriminator se entrena para reconocer imágenes preexistentes, mediante el análisis de millones de ejemplos debidamente etiquetados, con el objetivo de comprender si las producidas por el Generador son reales o artificiales.
Poco a poco, de intento en intento, el Generador aprende a producir imágenes sintéticas que parecen haber sido creadas por un ser humano.
Los sistemas de "texto a imagen" más avanzados, como los de OpenAI e Imagen de Google, utilizan "modelos de difusión". Ambos parten de un modelo capaz de comprender frases complejas, no simples palabras clave.
En el sistema OpenAI, estas frases se pasan a ordenadores que utilizan un modelo, llamado "prior", cuya tarea es generar "CLIP image embeddings", es decir, "hacerse una idea" de esas palabras (como nos ocurre a los humanos cuando nos piden que dibujemos una playa con sombrillas y barcos en el horizonte). A continuación, estas "incrustaciones de imágenes CLIP" se transmiten a otra red que, basándose en un "modelo de difusión de decodificadores" (unCLIP), comienza a dibujar esa idea en pasos sucesivos (véase el vídeo a continuación).
Imagen de Google también utiliza un "modelo de difusión", mientras que el nuevo Parti utiliza un "modelo autorregresivo" para transformar palabras en imágenes con un codificador de texto que se basa en 20.000 millones de parámetros.
Actualmente se están probando programas de generación de imágenes más sofisticados. Antes de ponerlos a disposición de todo el mundo, hay que estudiar los riesgos de su uso, como la producción de contenidos violentos o falsos que puedan poner en evidencia a determinadas personas o categorías y la generación de resultados que puedan reflejar los prejuicios y estereotipos contenidos en los grandes modelos lingüísticos.
Tarde o temprano, estos programas se harán públicos, se multiplicarán y evolucionarán, y probablemente dentro de cinco años los veremos aplicados también a los vídeos.
Es de esperar que creen problemas a las agencias de imágenes de archivo, me parece obvio, sin duda quedará por descifrar la historia de los derechos de autor: quién, qué, cómo, a quién, ¡y será toda una maraña por desentrañar!
En cualquier caso, aunque ya están lloviendo muchas críticas, sigo convencida de que estas herramientas basadas en la IA no destruirán la creatividad, sino que, por el contrario, pueden multiplicar las ideas y los gestos de los autores más curiosos y deseosos de crecer sin límites.
Dall-e la inteligencia artificial que genera imágenes a partir de una descripción
DALL-E: qué es y cómo acceder a esta herramienta ?
OpenAI ha desarrollado un particular modelo de inteligencia artificial conocido como DALL-E que es capaz de generar imágenes a partir de descripciones en lenguaje común.
Más concretamente, este sistema requiere una entrada, ya sea sólo texto o texto con imagen. El resultado será una salida de imágenes. En esencia, esto significa que el usuario podrá teclear descripciones incluso inverosímiles, como una silla con forma de mariposa o un astronauta a caballo, para obtener distintas variantes de estas imágenes. Éstas serán creadas en tiempo real por el sistema, por lo que no son imágenes recuperadas de Internet, como ocurre con cualquier motor de búsqueda.
A continuación se muestra un ejemplo de cómo se generan las imágenes, en el primer caso la persona que dio la entrada escribió: "Representación en 3D de un bonito pez tropical en un acuario sobre un fondo azul oscuro, arte digital".
Según los desarrolladores, DALL-E permite a los usuarios expresarse de forma muy creativa y, después de todo, el nombre de este modelo pretende ser un homenaje a Salvador Dalí, así como al robot Wall E de Pixar.
Más concretamente, es una especie de reelaboración del lenguaje natural GPT-3, pero con una característica específica. DALL-E, de hecho, integra nada menos que 12.000 millones de parámetros, por lo que está altamente especializado en representaciones gráficas.
El conjunto de datos consta de pares texto-imagen que permiten al modelo proporcionar dibujos dada la información de entrada inicial. DALL-E está diseñado para realizar abstracciones singulares, emoji y renderizado de texto, así como la creación de representaciones híbridas, por ejemplo, entre una zanahoria y un erizo.
Hay que tener en cuenta que el sistema también puede recibir instrucciones muy detalladas, por ejemplo, un rinoceronte con gafas de sol, zapatos amarillos, corbata roja y corriendo sobre el mar
“A rhinoceros wearing sunglasses, yellow shoes, a red tie and running on the sea”
DALL-E también es capaz de generar productos reales, como:
"Bocadillo de hamburguesa con queso, mayonesa y lechuga colocado sobre una tabla de cortar que tiene un cuchillo apoyado junto al bollo".
Sin embargo, puede ocurrir que al crear la imagen se omita algún detalle. En resumen, en algunas situaciones la plantilla no siempre consigue representar lo que el usuario realmente quiere, incluso cuando se trata de transformar una imagen en un dibujo.
Para ello, será necesario separar bien los contornos, eliminar el fondo y utilizar los colores más adecuados. Por tanto, algunos tratamientos pueden resultar poco inteligentes.
Sin embargo, estas deficiencias se superaron tras el lanzamiento de la versión DALL-E 2, capaz de realizar creaciones de alta calidad y manipular fotos a partir de un sistema de IA.
Gracias a la actualización, ahora el sistema puede realizar una edición selectiva y producir imágenes similares pero diferentes a las originales. Esto se debe a que se aprovecha la tecnología de las redes neuronales generativas.
DALL-E es, por tanto, un sistema con un gran potencial y bastante versátil, ya que puede utilizarse eficazmente en muchos sectores.
De hecho, se utiliza con cierto éxito en los estudios de los diseñadores de interiores, así como en la industria de la moda y en todas las situaciones en las que se requiere una gran imaginación visual.
DALL-E, de hecho, no hace más que apoyar a los artistas en la obtención de nuevas inspiraciones, especialmente cuando es necesario explicar en pocos segundos conceptos que tardan mucho en representarse gráficamente mediante métodos tradicionales.
La inteligencia artificial en la fotografía, DALL-E sólo es el principio
La inteligencia artificial desarrollada por OpenAI, capaz de crear imágenes a partir de información textual, es capaz de crear imágenes muy evocadoras, así como de describir cualquier cosa sacándola directamente de la realidad o de la fantasía.
Lo primero que hay que saber es que la IA se refiere generalmente a cualquier tipo de comportamiento similar al humano, que a su vez es visualizado por un sistema o máquina.
En su versión más básica, se espera que los ordenadores estén programados para emular nuestro comportamiento, utilizando datos de, por ejemplo, comportamientos anteriores. El reconocimiento de distinciones, por ejemplo entre un pájaro y un gato, es el resultado de actividades complejas.
En el pasado, la inteligencia artificial permitía a los ordenadores retar a los humanos a las damas, pero hoy las cosas han cambiado considerablemente. Hoy, de hecho, podemos confiar en la IA para analizar vídeos, realizar síntesis de voz, control de calidad, conducción autónoma, soluciones para la sanidad, el entretenimiento, financieras y mucho más.
En resumen, la IA se revela como una herramienta especialmente poderosa, no sólo para las grandes empresas que generan una cantidad importante de datos, sino también para las pequeñas empresas y organizaciones que deben procesar las llamadas de los usuarios de forma eficiente.
En resumen, la inteligencia artificial consigue simplificar los procesos empresariales, completando así las tareas con rapidez y eliminando el riesgo de error humano.
Los recientes avances en algoritmos, la difusión de conjuntos de datos digitales y el aumento de la potencia de procesamiento hacen de DALL-E un sistema especialmente versátil para quienes trabajan en el campo de la fotografía, ya que es capaz de extraer significados precisos de textos e imágenes.
Este modelo de aprendizaje automático, que inicialmente estuvo precedido por una versión no muy potente, puede producir ahora imágenes extraordinarias, incluso en términos de resolución y sofisticadas técnicas de aprendizaje profundo.
Contrariamente a lo que podría pensarse, DALL-E no es sólo una herramienta para jugar con las fotografías, sino también el trampolín para crear algo nuevo y completamente original.
En cualquier caso, las aplicaciones más interesantes surgirán con el tiempo, gracias así al trabajo de los usuarios, que podrán probar y experimentar con distintas creaciones.
DALL-E su futuro y el acceso de pago
El trabajo desarrollado por OpenAI, en contra de lo que muchos piensan, no es gratuito, ya que el acceso implica la compra de una cuota, al menos después de un cierto número de usos libres. Los créditos pueden comprarse con tarjeta de crédito, como ocurre con muchos otros servicios web.
Según han comunicado oficialmente los desarrolladores, cada collage compuesto por cuatro fotos (o tres si quieres solicitar un cambio), requiere un crédito para poder generarse.
El primer millón de usuarios que tendrán acceso regular al sistema aún en fase beta podrán recibir un crédito gratuito de 50, que deberán gastar en el plazo de un mes. Se añaden otras 15 fichas para utilizar el mes siguiente.
Una vez agotados los cupones, hay que cargar el monedero invirtiendo en un paquete de 115 créditos, lo que supone un gasto de 15 dólares, unos 15 euros. De este modo, habrá que pagar una media de 13 céntimos por cada collage.
Hay que señalar, sin embargo, que el uso de las imágenes generadas por la inteligencia artificial no tiene límites, en el sentido de que las creaciones también pueden utilizarse con fines comerciales, por ejemplo, para portadas de libros, para personalizar camisetas, gorras, gadgets de empresa y mucho más.
Estas creaciones gráficas también pueden utilizarse para decorar páginas web. Sin embargo, gastando pequeñas sumas se pueden obtener resultados no sólo libremente utilizables, sino también profesionales.
A este respecto, muchos usuarios temen que las imágenes de inteligencia artificial puedan explotarse con fines ilícitos, por ejemplo para difundir noticias falsas. El consorcio ya ha asegurado que se bloquearán las fotos posadas, en las que aparezcan caras de personas conocidas y reconocibles, así como todo lo que sea material explícito.
Así pues, DALL-E está abierto a todo el mundo, y para la mayoría de los usuarios los créditos gratuitos son más que suficientes para empezar a familiarizarse con el sistema y dar rienda suelta a su creatividad.
Los collages más bonitos y divertidos se pueden compartir en línea en las redes sociales. Los usuarios profesionales, por su parte, aprovecharán la IA por motivos comerciales y dispondrán de una herramienta avanzada, eso sí, invirtiendo un pequeño presupuesto.
¿Y qué te gustaría intentar generar con inteligencia artificial? Deja un comentario e intentaré pedirle a DALL-E que haga realidad tu "creación".
Un excelente artículo, felicito ampliamente al redactor de este. Y sobre la pregunta final qué te gustaría intentar generar con inteligencia artificial, son una infinidad de cosas realmente.
ResponderEliminarSaludos