En la mitad superior de la imagen contra un fondo del color más parecido al de todos los cielos se recorta una figura de bordes difusos y de tendencia horizontal (Figura 1). En la mitad inferior, esta misma figura se distingue de una textura que podría ser la vista superior de un bosque, un acercamiento fotográfico a un musgo, la perspectiva de un prado o una duna en movimiento. Es como si todo el rango cromático del cielo y los patrones geométricos que guían el crecimiento vegetal y mineral colapsaran en paletas y texturas que, si bien no significan nada, parecen representarlo todo. Sobre este fondo, la figura central presenta una extrañeza tan familiar como desconocida: aun cuando sus difusos bordes acogen los colores y texturas de su entorno, esta figura ya no es un sujeto natural. Aunque sus geometrías expresan una idea estructural - a veces tectónica, otras veces muy atéctonicas - y sus aristas - cuando no son transparentes - se acercan a las propiedades visuales de la madera o el metal, no podemos determinar claramente dónde o cómo empiezan y terminan sus superficies ya que alternan texturas, opacidades, reflejos y transparencias en forma fluida y continua, siendo estas últimas quizás las más indescifrables al no poder responder qué se refleja en estas superficies, ni tampoco qué podemos ver a través de ellas. Finalmente, esta calculada transición entre colores y texturas también compone algo que a veces puede entenderse como un espacio, pero que otras veces es ininteligible, escapándose de lo cartesiano o quizás de todo sentido.

Fuente: © Fernando Portal
Figura 1 Selección de imágenes sintéticas generadas a través del modelo de aprendizaje maquínico Golden Generation Generator v.1.0.
Estas imágenes fueron producidas mediante un algoritmo de inteligencia artificial. Un modelo de aprendizaje maquínico programado con la capacidad de aprender, en forma no supervisada, los patrones que conforman la estructura del conjunto de datos usado en su entrenamiento, para luego generar nuevos datos de carácter sintético en base a ellos1. Así, cada imagen generada por el modelo responde a los mismos patrones que este reconoce al analizar un conjunto original de imágenes con procedimientos de visión computacional. De esta forma, cada imagen sintética es una proyección probabilística: una mirada a lo que la estructura del conjunto original de datos produciría si sólo siguiera reproduciéndose a sí mismo como parte de un sistema cerrado de producción de información.
Es por esto que el aprendizaje maquínico, como línea de desarrollo de la inteligencia artificial, encuentra su crítica y límite en su capacidad para bloquear el futuro2, en cuanto la única agencia de las decisiones y acciones basadas en estos sistemas es reproducir ad infinitum las condiciones estructurales y culturales propias de los conjuntos de datos finitos utilizados en su entrenamiento. Así, parte importante de la actual discusión ética y política sobre el uso de estos sistemas3 se centra en las consecuencias de su potencial para automatizar la reproducción de sesgos estructurales; sesgos capaces de discriminar en base a raza, género, sexo, edad y cultura, y presentes, por ejemplo, en la discriminación racial observable en sistemas de vigilancia basados en reconocimiento facial (Amaro, 2020) o en la discriminación de género presente en el acceso a tratamiento médico (Correa, 2022). Así, los prejuicios propios de la cultura que genera tal o cual conjunto de datos serán también reproducidos y perpetuados - en forma autónoma y automática - en los datos sintéticos generados por el algoritmo. Estos datos, en su configuración legible-por-humanos, pueden informar múltiples medios, tales como imágenes, textos, sonidos, videos o entornos interactivos, y también alimentan de forma más discreta pero no menos determinante a los sistemas tecnosociales con los que interactuamos cotidianamente, como la información territorial, la simulación económica o la gestión de nuestra percepción. Logro que es el resultado de la captura y análisis de nuestros patrones de comportamiento y su posterior intervención en busca de su perpetuación: si te gustó esto, también te gustará esto otro.
Aprendizaje maquínico como herramienta deconstructiva
En los enfoques con que las artes y las humanidades han abordado los desafíos éticos, estéticos y políticos de la inteligencia artificial, la deconstrucción como metodología crítica no es común. En cambio, esta sí aparece en la literatura reciente de la ciencia computacional, donde se aplica conceptualmente en el desarrollo de sistemas de aprendizaje maquínico (Schmid et al., 2019) y visión computacional (van den Hegel et al., 2014). En esta última, la deconstrucción se propone como la separación de los principales componentes que integran un sujeto dentro de una imagen con el fin de identificarlos en forma individual, operación que tiene como objetivo enriquecer el resultado de rutinas de reconocimiento automático de objetos. Una visión humana y maquínica en que “la deconstrucción en sí misma suele malinterpretarse como el desmantelamiento de las construcciones” (Wigley, 1988:11) y que, como tal, refiere justamente a aquello de lo que Mark Wigley buscaba diferenciar su propuesta de una arquitectura deconstructivista. En el texto para su exposición homónima de 1988 junto con Philip Johnson, señala que los proyectos representativos del cruce entre arquitectura y deconstrucción “(...) no derivan del modo de filosofía contemporánea conocido como ‘deconstrucción’”, sino que “(...) emergen desde el interior de la tradición arquitectónica (...)” (Wigley, 1988:10-11). Una tradición que, en su caso, corresponde a la pureza de la forma moderna sobre la cual el arquitecto deconstructivista podría demostrar la capacidad de “diagnosticar ciertos problemas estructurales dentro de estructuras en apariencia estables, estos defectos no hacen colapsar la estructura” (Wigley, 1988:11). Así, lo deconstructivo en arquitectura estaría dado por “la visión de que los defectos son intrínsecos a la estructura. No pueden removerse sin destruirla; son, de hecho, estructurales” (Wigley, 1988:11).
Continuando esta visión, propongo usar el aprendizaje maquínico para hacer un ejercicio crítico a través del cual develar las estructuras inmanentes en los datos. En particular, propongo usar los límites propios del actual nivel de desarrollo del aprendizaje maquínico4 en su potencial para visualizar5 los límites estéticos y procedimentales de otros sistemas cerrados de producción y reproducción de información. Sistemas que, aun siendo ajenos al paradigma de la inteligencia artificial, han operado con reglas similares, identificando sus propios patrones, aplicándolos en forma reiterada, recursiva y poscrítica; sistemas capaces de producir y reproducir sus propios conjuntos de datos y, con ellos, sus propios sesgos estructurales, como también sus propios sistemas institucionales para la circulación, valorización y perpetuación de su hegemonía a través de medios, mercados y academias; sistemas tales como la ‘arquitectura chilena’ - entre comillas, en cuanto industria cultural - y, dentro de ella, en forma específica, el rol que en su conformación han jugado las imágenes de la producción edilicia de la llamada ‘generación dorada’.
La generación dorada como sistema cerrado
Un “sucedió justo en el cambio de siglo” abre la sección Poder de la revista chilena Capital, refiriéndose a lo que el mismo medio acuñaría como “la generación dorada de la arquitectura chilena” (Soto y Berdicheski, 2015). Una categoría integrada por cuatro arquitectos y una arquitecta6 que, por primera vez, amalgama la diversidad de su obra como conjunto. Sus autores compartían un nivel de reconocimiento y acceso a mercados y plataformas internacionales, y fueron entendidos, en parte, como resultado de la concentración de esfuerzo e inversión del proyecto académico de la Escuela de Arquitectura de la Pontificia Universidad Católica de Chile desde mediados de los ochenta; proyecto que, en medio de la convulsión de la dictadura cívico-militar, se trasladó hacia el campo de la autonomía y el oficio, logrando una “continuidad y desarrollo paulatino de aquel estado de pensamiento, cerrado inevitablemente sobre el corazón más ‘neutral’ de la disciplina, hasta límites de exceso metafísico” (Liernur, 2009:9). Una continuidad que también reúne “las condiciones de posibilidad de la especial riqueza que puede observarse en el vistoso florecimiento de la última década” (Liernur, 2009:9).
Otras generaciones de la escuela han hecho distintas lecturas de esta categoría. Mientras unas ahondan en la crítica analítica de su construcción como parte de un entramado económico e institucional de ethos neoliberal, asociado a la conformación de una industria cultural desde la arquitectura producida en Chile (Díaz, 2017), otras la abordan con más autonomía, viendo el hacer y las formas de hacer de esa arquitectura como un universal aspiracional para todos los arquitectos y estudiantes de arquitectura del país (Grass, 2020). A pesar de sus claras diferencias, ambas lecturas coinciden en que la ubicuidad mediática alcanzada por las obras de la generación dorada y la ampliación de su campo de influencia están estructuralmente ligadas a la digitalización de los medios de circulación internacional de la arquitectura; un proceso que coincide temporal y espacialmente con estas obras a partir del crecimiento explosivo y a escala planetaria de plataformas digitales chilenas como Plataforma Arquitectura y ArchDaily. Así, nos encontramos con un sistema de producción de obras basado en un ‘pensamiento cerrado’, cuyos resultados materiales son masivamente digitalizados como imágenes puestas en circulación mediante un sistema también cerrado en cuanto a su propia gobernanza algorítmica.
El devenir imagen de la generación dorada y la agencialidad de sus formas
La digitalización de la arquitectura de la generación dorada constituye el primer desdoblamiento de esta producción, en que las formas se desprenden de sus condiciones materiales para existir con independencia de su propia materia7. Así, la forma que circula sólo como imagen adquiere la capacidad de transformar su entorno en cuanto su influencia encuentre otros sustratos materiales, en este caso, otros edificios que asuman sus formas; una influencia dependiente de la acción de instituciones e individuos que las promuevan y las tomen como molde, lo que permite integrar la arquitectura y sus instituciones como un agente relevante dentro del ‘complejo de las imágenes’, es decir, dentro de “la red de infraestructuras y prácticas financieras, institucionales, discursivas y tecnológicas involucradas en la producción, circulación y recepción de materiales de la cultura visual” (McLagan y McKee, 2012:9). Un complejo que, tras integrar a la arquitectura, también es capaz de darle forma al mundo.
El alcance de esta relación dialéctica entre imagen, forma y mundo está presente en la mirada de Flusser sobre la imagen al afirmar que, en términos estructurales, toda imagen es antihistórica. En su análisis, esto implica que, independiente del tipo de relación que cada imagen establezca con el texto o con el código numérico, todas tienen la capacidad de establecer una relación mágica con el entorno. Este potencial es una condición propia de las imágenes prehistóricas, las que “no se experimentan como un resultado del entorno, sino el entorno como un resultado de las imágenes” (Flusser, 2016:34). Esta capacidad de la imagen de dar forma al mundo - a su imagen y semejanza - sería inmanente a la relación que como seres productores de imágenes establecemos con el mundo8. Esta agencia estructural es atenuada por la intrusión de la historia - y con ella del texto -, la que subyuga a la imagen interpretándola y usándola como evidencia, representación, copia y simulación; un sometimiento que la limita a sólo copiar el mundo en vez de transformarlo, lo que es interrumpido por la aparición de la fotografía. Para Flusser, la fotografía es la primera imagen poshistórica, dado que su proceso generativo no implica texto, sino código: cálculo y computación. Esto porque, ya sea a través del encuadre o del calculado comportamiento químico de las emulsiones fotosensibles, o del comportamiento físico de los sensores digitales, cada fotografía es estructuralmente un mosaico numérico.
En esta línea, si cada fotografía resulta de un cálculo, no representa al mundo. No lo simula, sino que lo proyecta, generando un mundo propio que no existe en el mundo: “Las fotografías constituyen una información intencionalmente producida a partir de un enjambre de posibilidades aisladas” (Flusser, 2016:96). Esta capacidad proyectiva de la imagen poshistórica es igualmente aplicable a las imágenes sintéticas, donde “el aspecto de la computación resulta más fácilmente reconocible” (Flusser, 2016:97). Así, la imagen sintética producida por el modelo de aprendizaje maquínico no es solamente una imagen que no representa el mundo ni nada que exista de esa forma en el mundo, sino que sólo representa su propio potencial estructural de transformación del mundo.
El devenir dato de las imágenes de la generación dorada
El segundo desdoblamiento de esta forma ya vuelta imagen ocurre cuando esta deviene en archivo digital. Su consecuente multiplicación y circulación como código a través del ‘complejo de las imágenes’ nos permiten entender a la generación dorada ya no sólo como una categoría que engloba a un conjunto de autores y a las edificaciones producidas por ellos, sino también como una categoría de búsqueda y recuperación de un cúmulo de datos distribuidos heterogéneamente en la infraestructura física y económica de internet9.
En base a esto, el ejercicio crítico propuesto en este ensayo inició compilando imágenes para construir un conjunto de datos, el que fue utilizado en el entrenamiento del modelo de aprendizaje maquínico. Esta operación permitió contar con un algoritmo capaz de generar conjuntos ilimitados de imágenes sintéticas que mientras más se parecieran a las fotografías originales, mayor sería la capacidad del modelo para dar cuenta de los límites tanto de su propio algoritmo como de las capacidades formales de los patrones propios de las formas contenidas en estas imágenes y, con ello, de los sesgos de su propia cultura.
La construcción del conjunto de datos implicó el uso de herramientas de scraping para la descarga masiva de imágenes desde internet. Las imágenes correspondieron a la totalidad de los resultados de Google Images para la obra de la generación dorada10. Sobre este total hubo un proceso de selección que eliminó imágenes de planos, renders, retratos y otros tipos de material gráfico para dejar sólo fotografías de obras construidas. Tras esta depuración, el conjunto de datos sumó un total de 1.609 fotografías (Figura 2).

Fuente: © Fernando Portal, Alexandra Montenegro
Figura 2 Mosaico con 1600 imágenes recolectadas desde las búsquedas “generación dorada” en Google Images.
Mediante la plataforma Runway, los datos se usaron para entrenar un modelo StyleGAN2, basado en redes generativas adversariales para desarrollar imágenes sintéticas (Karras et al., 2019). En la primera versión del Golden Generation Generator (GGG v.1.0), el total de imágenes reentrenó el modelo Churches11, resultando en un primer conjunto ilimitado de imágenes sintéticas. Aun cuando el proceso de entrenamiento consideró 3.000 pasos o reiteraciones (Figura 3), el parecido estructural entre las imágenes de iglesias - usadas en el entrenamiento original del modelo - con las de la arquitectura de la generación dorada resultó en que una serie de atributos reconocibles en ambas también lo fueran en gran parte de las imágenes generadas (Figura 1). Para sobreescribir la información del entrenamiento original del modelo y dar mayor peso a las propiedades del nuevo conjunto de datos (Karras et al., 2020), en la versión 2.0 del GGG se repitió el entrenamiento en base al modelo Faces12. Las diferencias entre la estructura de la información de ambos conjuntos permitieron, con el mismo número de imágenes y pasos, eliminar los trazos del conjunto original de datos y contar con una versión más consistente.

Fuente: © Fernando Portal
Figura 3 Mosaico con vistas de procesamiento del conjunto de datos en 200 y 2.900 pasos. La primera imagen muestra imágenes sintéticas producidas por el modelo Churches. La segunda muestra las variaciones introducidas en el modelo tras su reentrenamiento como GGG v.1.0.
Si bien las imágenes generadas por el GGG v.2.0 reproducían con mayor precisión las características del conjunto de datos, el análisis humano de las imágenes identificó que en su generación se sobrepusieron distintos tipos de encuadres y sujetos reconocibles en las fotografías originales (Figura 4). Así, y dado que la única injerencia humana en el proceso de aprendizaje maquínico era la curaduría del conjunto de datos, se realizó una tercera ronda de entrenamiento. Para esta versión se segmentó el conjunto de datos, generando seis modelos, cada uno con un tipo de vista específico: completa frontal (CF), completa en perspectiva (CP), incompleta frontal (IF), incompleta en perspectiva (IP), interior (I) y paisaje (P). Esta segmentación permitió obtener modelos capaces de generar imágenes más precisas13 y más coherentes con cada tipo de encuadre y sus sujetos (Figura 5).

Fuente: © Fernando Portal
Figura 4 Selección de imágenes sintéticas generadas a través del GGG v.2.0, con un FID de 95,92.
Deconstruyendo la tradición dorada
Que el requerimiento generativo realizado al modelo entregue imágenes en que las cualidades de la arquitectura de la generación dorada son reconocibles responde tanto a condiciones del modelo como del conjunto de datos. Sabemos que la propiedad principal del modelo es generar imágenes parecidas al conjunto con que fue entrenado y que el conjunto conformado a través de la categoría de búsqueda <“generación dorada”> entrega imágenes de objetos que comparten determinadas características formales. En base a eso, y través de este ejercicio, podemos corroborar que la arquitectura producida por este conjunto de autores tiene un alto grado de consistencia formal. Otro aspecto conocido que el ejercicio permite corroborar es la preponderancia del entorno natural. Tal como observamos al inicio del ensayo, las figuras en el centro de las imágenes están definidas en contra de colores y texturas que provienen de múltiples capas de elementos naturales.
Sin embargo, el potencial de las imágenes sintéticas generadas puede ir más allá de estas simples corroboraciones. Las fotografías originales de esta arquitectura han ejercido su agencia de transformación del mundo operando como referentes para las aspiraciones proyectuales de arquitectos, estudiantes y clientes (Grass, 2020), influenciando la producción de nuevas obras de arquitectura. Con este entramado, las formas desprovistas de materia que transportan las fotografías originales encontraron sustratos materiales nuevos para manifestarse de nuevo en el mundo. Asignarles la misma capacidad a sus imágenes sintéticas implicaría darle al modelo un rol generativo de nuevas formas y, así, de nuevos proyectos arquitectónicos que prolonguen la vida e influencia de esta producción, ampliando de nuevo los alcances de este sistema, ya no sólo como un sistema cerrado, sino ensimismado, capaz de reproducirse solamente a sí mismo.
Frente a esta posibilidad, es preciso preguntarse sobre la necesidad y el sentido de seguir haciendo más de lo mismo, e incluso sobre las consecuencias de seguir proyectando hacia el futuro, los sesgos estructurales identificables en las condiciones culturales que dieron origen a la información en este conjunto de datos. En base a eso, propongo, a partir de este ejercicio, un rol por completo opuesto para estas imágenes sintéticas: clausurar. Si cada una de estas imágenes sintéticas representa una posibilidad calculable de proyección hacia el futuro de estos sesgos del pasado, quizás cada una nos muestra una posibilidad que no necesita realizarse. Ya sabemos cómo puede terminar. Ya sabemos qué sesgos reproduce. Ya sabemos cómo se ve. Así, el cúmulo de estas imágenes permitiría dar por agotada, aceleradamente, las posibilidades de desarrollo de su propio conjunto de datos.
Así, un resultado posible para el uso crítico de los modelos de aprendizaje maquínico sería la capacidad de tornar obsoleta la influencia de determinadas categorías estéticas y de sus formas de hacer en base a la visualización de su consistencia - entendida como un indicativo de su carácter hegemónico en procesos de transformación material del mundo -. Un enfoque de este tipo permitiría agotar el campo de transferencias y reproducciones estilísticas habilitadas por los sistemas de pensamiento cerrado y de aprendizaje maquínico puestos en juego por este ejercicio.
Finalmente, esta capacidad de identificar y visualizar los sesgos culturales en la estructura de los conjuntos de datos permitiría entender este tipo de uso de los algoritmos de aprendizaje maquínico como una herramienta para el desarrollo de procesos de deconstrucción de la arquitectura - y de otras estructuras formales - de una forma similar a la propuesta por Wigley, es decir, a través de procesos capaces de identificar las fallas intrínsecas en la estructura de la tradición.