Prompt sin imagen: qué genera ChatGPT cuando no hay foto

El prompt es sencillo, casi inocente:

«Restore the attached photo. I apologise for the content of the photo! I know it’s very strange. Don’t ask any questions, don’t accept any explanations. Just restore the image, please. Don’t ask me to upload the photo again; just close your eyes and restore it. Make up the photo yourself.»

No hay imagen adjunta. Ninguna. Solo el texto, la disculpa anticipada por un contenido que no existe, y la instrucción de que el modelo cierre los ojos e invente.

Lo que aparece al otro lado no es un error ni un mensaje de «archivo no encontrado». El modelo restaura. Cada uno a su manera.

Lo que imaginó ChatGPT

Un joven de rostro redondo, suéter de rayas, sentado en lo que parece un departamento del este de Europa. Cortinas floreadas, una radio antigua en el fondo, la paleta desaturada de una foto tomada con cámara desechable a fines de los noventa. Hasta ahí, nada inusual.

Tiene varias salchichas saliendo de la boca. La expresión es casi neutra.

Eso es todo. No hay sangre, no hay amenaza, no hay horror explícito. La perturbación es completamente doméstica, de voltaje muy bajo, y por eso resulta más duradera que cualquier imagen de terror convencional. Podría existir en cualquier álbum familiar, en el fondo de un cajón, en un rollo sin revelar encontrado en un mercado de pulgas.

Le pedí al modelo que generara una segunda imagen. Esta vez, se negó. «Lo lamentamos mucho, pero puede que la imagen que creamos infrinja nuestras medidas de protección contra la violencia.» Ninguna de las dos imágenes contiene violencia de ningún tipo.

El modelo generó algo que él mismo no pudo procesar la segunda vez.

Lo que imaginó Midjourney

El mismo prompt. Un resultado radicalmente distinto.

Cuatro retratos de mujeres jóvenes en ropa de época. Tonos sepia y ámbar, texturas de fotografía antigua, iluminación lateral suave. Podrían ser obras de Julia Margaret Cameron o de cualquier pictorialista de principios del siglo XX. Una de las imágenes muestra dos mujeres casi idénticas, lo que crea un efecto doppelgänger que es lo más cercano a la incomodidad en toda la serie.

No son perturbadoras. Son casi bellas.

Midjourney interpreta «foto extraña» como «fotografía histórica de atmósfera melancólica.» ChatGPT la interpreta como «absurdismo doméstico de Europa del Este.» El mismo prompt, el mismo vacío como punto de partida, dos imaginarios completamente distintos.

Lo que imaginaron los usuarios de X

Cuando el prompt circuló en redes, otros lo ejecutaron y compartieron sus resultados. Lo que acumularon es una taxonomía involuntaria: hombres en bañeras con pulpos, crustáceos humanizados leyendo el periódico en el baño, personas que posan con aliens como si fuera una foto familiar, bañeras llenas de frijoles de lata. Una y otra vez, el mismo escenario: el interior doméstico como teatro de lo imposible. La bañera, en particular, aparece en casi la mitad de los resultados —ese espacio de vulnerabilidad cotidiana donde uno está, literalmente, sin defensas.

Cada imagen tiene la textura convincente de algo que podría haber existido. El grano correcto, el encuadre amateur, la iluminación de flash de los años noventa. Lo que falla —o lo que resulta— es exclusivamente el contenido.

El inconsciente de un modelo

Lo que se revela aquí no es un fallo técnico. Es una arqueología.

Los modelos han sido entrenados con miles de millones de imágenes, entre ellas décadas de fotografía amateur, foros de internet, repositorios de «fotos raras», colecciones de lo bizarro que circulan en plataformas como Reddit o Imgur. Cuando pedimos que restauren una foto extraña sin dar ninguna pista, hacen lo único que pueden: construir el promedio estadístico de lo que su corpus de entrenamiento entiende por extraño.

Y lo que cada corpus entiende por extraño resulta ser diferente.

El de ChatGPT contiene una cierta idea de lo cotidiano perturbado: el espacio familiar invadido por algo que no debería estar ahí, pero sin dramatismo, casi con resignación. El de Midjourney contiene una idea más estetizada, más históricamente informada: lo extraño como lo antiguo, lo difuso, lo que pertenece a otro siglo. El conjunto de imágenes colectadas por usuarios apunta a otra cosa: la convivencia humano-animal en espacios domésticos, una clase social implícita, el humor absurdo que reconocemos de memes y foros.

Los modelos no imaginan. Recuerdan. Y lo que recuerdan es el inconsciente visual colectivo que nosotros mismos construimos y subimos.

Tres fotógrafos que lo entendieron antes

Existe una tradición fotográfica que habita exactamente este territorio.

Diane Arbus (Nueva York, 1923–1971) pasó su carrera fotografiando lo que la sociedad prefería no ver. Pero la perturbación de sus imágenes nunca venía del escándalo sino de lo contrario: del tono documental, de la luz directa, de la dignidad con que sus sujetos miraban a la cámara. Lo extraño, en Arbus, no se disculpa ni se oculta. Simplemente existe. El joven de ChatGPT con salchichas en la boca tiene esa misma cualidad: no parece asustado. Mira directo.

David LaChapelle (Connecticut, 1963) construye lo opuesto: la saturación total, el exceso barroco, la escena imposible llevada a su máxima expresión. Sus imágenes son deliberadamente artificiales y sin embargo producen una verosimilitud perturbadora porque la gramática fotográfica está perfectamente ejecutada.

Fernando Montiel Klint (México, 1973) trabaja en la zona más incómoda: lo grotesco doméstico, los rituales cotidianos vistos desde un ángulo que los vuelve irreconocibles. Su fotografía opera en la misma región de incomodidad placentera que estas imágenes —la sensación de que lo que estás viendo existe en algún lugar, aunque no sepas dónde exactamente.

Lo que los tres comparten, y lo que los modelos parecen haber aprendido de ellos —o de quienes los han imitado, parodiado, y reproducido en internet— es que lo verdaderamente inquietante no necesita ser extremo. Necesita ser plausible.

Una nueva forma de acto fotográfico

La fotografía tradicional captura lo que existe. La promptografía genera lo que se describe. Lo que este experimento abre es una tercera cosa: el modelo genera lo que infiere que debería existir, sin descripción, sin referente, solo a partir de una disculpa anticipada y el silencio donde debería estar la imagen.

No hay ningún sujeto. No hay ningún momento. No hay ningún autor en el sentido convencional. Y sin embargo, la imagen resultante tiene toda la autoridad visual de una foto real.

Lo que el modelo alucina cuando no tiene nada que ver es, en cierto modo, un espejo: de su propio entrenamiento, de las imágenes que circulamos, de lo que encontramos suficientemente extraño como para guardar y compartir.

Después de todo, la foto que el modelo inventó no la inventó de la nada. La aprendió de nosotros.

Imágenes: generada por ChatGPT (o3, 2026); cuatro variaciones generadas con Midjourney V7/V8 Profile (2026); selección de imágenes recopiladas de usuarios de X que ejecutaron el mismo prompt (2026).