¡Quiero Más Ciencia!

La publicación digital “Quiero Más Ciencia” se centra en presentar los avances más relevantes y emocionantes en ciencia, tecnología, salud, medio ambiente y sociedad.

¿Cómo reacciona una IA ante las ilusiones ópticas?

6 min lectura
Cuando la IA analiza una ilusión óptica, su respuesta puede variar. Algunas veces coincide con la percepción humana, otras, responde lógicamente.
¡Comparte este artículo!

La IA, ante las ilusiones ópticas, muestra que aún hay mucho por explorar en la intersección de la visión artificial y la cognición humana.

CONTENIDOS

La Percepción del Color en la Inteligencia Artificial

Los modelos de IA, como GPT-4V, han demostrado tener respuestas sorprendentemente humanas al interpretar colores en imágenes. Lo que sugiere que pueden haber aprendido a interpretar el color en contexto. Esto implica que la IA evalúa los objetos dentro de una imagen en comparación con otros y ajusta los píxeles en consecuencia. De manera similar a como lo hace el cerebro humano. Este fenómeno se observa en ilusiones de constancia de color. Donde los colores percibidos se mantienen constantes a pesar de las variaciones en la iluminación ambiental. La capacidad de la IA para replicar esta adaptación humana podría tener implicaciones significativas en campos como la visión por computadora y la robótica, donde la interpretación precisa del color es esencial.

La IA, expuesta a una ilusión óptica, enfrenta una prueba. Su reacción puede ofrecer pistas sobre el aprendizaje automático y la percepción visual.

Diferencias en la Percepción entre Humanos y Máquinas

A pesar de las similitudes en la percepción del color, existen diferencias fundamentales entre cómo los humanos y las máquinas “ven” el mundo. Los estudios han mostrado que los modelos de IA responden a las ilusiones ópticas de manera inconsistente. A veces de forma similar a los humanos y otras veces con respuestas lógicas y objetivamente precisas. Estas discrepancias revelan que los sistemas de IA no poseen las complejas conexiones no lineales y los bucles de retroalimentación presentes en el cerebro humano, que permiten a nuestros sistemas sensoriales llenar los vacíos en la información recibida. Comprender estas diferencias es importante para mejorar los modelos de aprendizaje automático y adaptar sus aplicaciones en la vida real, como en los sistemas de diagnóstico médico o vehículos autónomos.

El Tamaño del Modelo y la Respuesta a Ilusiones Ópticas

La investigación ha indicado que el tamaño de los modelos de IA puede influir en su alineación con las respuestas humanas a las ilusiones ópticas. Los modelos más grandes, desarrollados con más pesos y variables, tienden a alinearse más estrechamente con las respuestas humanas que los modelos más pequeños. Sin embargo, en general, los modelos de IA no son particularmente buenos para identificar elementos ilusorios en las imágenes. Solo coinciden con las respuestas humanas en un promedio del 16% de los casos. Este hallazgo sugiere que el tamaño del modelo podría ser un factor relevante para imitar las respuestas humanas y podría ser considerado en el desarrollo futuro de sistemas de IA para mejorar su capacidad de interpretación visual.

Esta imagen fue generada por la IA de Microsoft Copilot al pedirle que construya un objeto imposible que no existe en la realidad como el triángulo de Penrose

Cómo las máquinas “ven” el mundo

La investigación sobre la percepción de ilusiones ópticas por parte de la inteligencia artificial (IA) ha revelado aspectos fascinantes de cómo las máquinas “ven” el mundo. En el estudio de Papailiopoulos, se observó que GPT-4V, una versión reciente de ChatGPT, a menudo interpreta los colores en las imágenes de manera similar a la percepción humana. Esto significa que, en lugar de identificar el color real de los píxeles, el modelo describía los colores tal como lo haría una persona. Por ejemplo, en una imagen de sashimi que parecía rosa a pesar de un filtro azul, GPT-4V describió el color rosa, alineándose con la percepción humana y no con la realidad cromática de la imagen.

En una prueba reciente, realizada por integrantes de Quiero Más Ciencia, se utilizó la IA Copilot en ordenadores personales para evaluar su capacidad de identificar figuras humanas en imágenes. Los resultados revelaron que, si bien Copilot pudo reconocer la figura de un caballo/Jirafa en la imagen, no logró identificar a las personas presentes. Este comportamiento se asemeja a la forma en que los niños pequeños perciben las imágenes. Los niños se centran enfocándose en elementos llamativos o reconocibles sin captar otros detalles sutiles. “La imagen proporcionada, parece ser una representación digitalmente alterada o estilizada de la cabeza y el cuello de una jirafa, con características prominentes como los ojos, orejas, ossiconos (estructuras parecidas a cuernos) y crin. Los colores no son realistas, sino que tienen una calidad artística de alto contraste con amarillos, negros y toques de verde. El estilo da la impresión de contornos y formas fluidas que realzan las características de la jirafa de manera abstracta”

Copilot no reconoce las figuras humanas a menos que se le pregunte directamente por ellas

Interpretación de Ilusiones Ópticas por IA

La capacidad de la IA para interpretar ilusiones ópticas, como la constancia del color, sugiere que los modelos de transformadores de visión-lenguaje pueden haber aprendido a interpretar el color en contexto. Esto implica que evalúan los objetos dentro de una imagen en comparación con otros y valoran los píxeles en consecuencia. Este fenómeno es similar a cómo el cerebro humano procesa la información visual. Lo que indica que la percepción de la IA y la humana pueden estar estrechamente alineadas, al menos en este aspecto.

Ante una ilusión óptica, la IA puede sorprender. Su interpretación, a veces alineada con la nuestra, sugiere un aprendizaje contextual de colores y formas.

Modelos de Transformadores de Visión-Lenguaje

Los modelos de transformadores de visión-lenguaje, como GPT-4V, han mostrado una capacidad impresionante para realizar tareas desafiantes como la generación de texto guiada por imágenes y la respuesta a preguntas visuales. Estos modelos se entrenan en grandes conjuntos de datos y aprenden a procesar y vincular información utilizando modalidades de imagen y lenguaje.

Te Puede Interesar:

¿De qué manera piensa ChatGPT y otros modelos de IA?: ¿Cómo reacciona una IA ante las ilusiones ópticas?

Percepción de Ilusiones Ópticas y AI

Los estudios sobre cómo los sistemas de IA reaccionan a las ilusiones ópticas podrían ayudar a los científicos informáticos a comprender mejor las habilidades y sesgos de estos modelos de aprendizaje automático de una sola dirección. Algunos investigadores han encontrado que los modelos responden a las ilusiones de manera inconsistente. A veces como lo harían los humanos, otras veces de manera puramente lógica y objetivamente precisa. Y ocasionalmente con respuestas sin sentido, probablemente como resultado de alucinaciones. Esto revela diferencias clave entre cómo las personas y las máquinas “ven” el mundo.

Estos hallazgos son importantes para comprender las vulnerabilidades y puntos ciegos de los sistemas de IA. Así como dónde se replicarán y no se replicarán las tendencias humanas. Por ejemplo, sería ideal que las herramientas de diagnóstico médico de IA que analizan imágenes de radiología no fueran susceptibles a errores visuales. Sin embargo, en otras aplicaciones, podría ser beneficioso que un sistema de IA imite ciertos sesgos humanos, como en los sistemas visuales utilizados en vehículos autónomos, para que los errores sean más predecibles y comprensibles.

La ilusión óptica desafía a la IA, cuestionando su capacidad para replicar el procesamiento visual humano y su adaptabilidad a contextos cambiantes.

La Interpretación Humana y la IA ante las Ilusiones Ópticas

La fascinación por las ilusiones ópticas no es solo una cuestión de curiosidad visual, sino que se extiende a la comprensión de cómo los humanos y la inteligencia artificial (IA) interpretan el mundo. Los estudios científicos han revelado que las ilusiones ópticas son más que meros trucos visuales. Son ventanas a la compleja interacción entre la percepción y el procesamiento cognitivo. En el caso de la IA, como la versión GPT-4V de ChatGPT, se ha observado que responde a las ilusiones de manera similar a los humanos. Sugiriendo que la IA puede haber aprendido a interpretar colores y formas en contexto, evaluando los objetos en relación con su entorno. Esto plantea preguntas intrigantes sobre la naturaleza del aprendizaje y la percepción tanto en humanos como en máquinas.

Para seguir pensando

Al reflexionar sobre la percepción humana y la IA en el contexto de las ilusiones ópticas, es evidente que ambos sistemas pueden ser engañados por las mismas trampas visuales. Sin embargo, la forma en que cada uno responde a estas ilusiones puede variar significativamente. Mientras que la percepción humana está influenciada por experiencias previas y el contexto, la IA depende de la cantidad y calidad de los datos con los que ha sido entrenada. Los datos estadísticos muestran que, aunque la IA puede imitar la percepción humana en ciertos aspectos, todavía hay diferencias fundamentales en la forma en que cada uno procesa la información visual. Estas diferencias son cruciales para entender y mejorar la forma en que implementamos la IA en aplicaciones prácticas, asegurando que sus respuestas sean predecibles y alineadas con las expectativas humanas. La investigación en este campo continúa abriendo nuevas vías para explorar la cognición y la inteligencia artificial, prometiendo avances en la forma en que las máquinas interactúan y comprenden el mundo que nos rodea.