Inteligência artificial aprende a reconstruir imagens vistas por pessoas

Pesquisadores japoneses utilizaram uma inteligência artificial para reconstruir imagens que foram apresentadas para as pessoas com fidelidade impressionante, a partir de dados de exames funcionais do cérebro (ressonância magnética funcional - RMNf). Esses achados podem nos aproximar de um maior entendimento de como reconstruímos a realidade ao nosso redor.

inteligência artificial e imagens humanas
Pesquisadores reconstruíram imagens vistas por pessoas com dados de ressonância magnética funcional processados por uma inteligência artificial

Pesquisadores da Universidade de Osaka, no Japão, compartilharam uma publicação no formato pré-impressão (ou preprint do inglês, ainda não revisado pelos pares) propondo um novo método reconstruir imagens da atividade cerebral humana obtidas por ressonância magnética funcional (RMNf).

As imagens obtidas são impressionantes por sua alta resolução e alta fidelidade.

Imagens reconstruídas pelo modelo/IA a partir de imagens vistas pelos participantes
Exemplos de imagens apresentadas para os participantes (primeira linha de imagens, com borda vermelha), e as imagens reconstruídas correspondentes pelo modelo/IA (segunda coluna de imagens, com borda cinza). Adaptado de: Takagi e Nishimoto, 2022

Uma Inteligência Artificial (IA) que lê mentes?

Não, ela ainda não lê mentes e também não é aquelas inteligências artificiais de filmes Holywoodianos, mas não deixa de ser uma abordagem interessante. Os pesquisadores utilizaram o que se chama de modelo de difusão estável (do inglês, Stable Diffusion) que, através do aprendizado de máquina, "quanto mais ele é usado, ele aprende a te dar mais resultados que vão de encontro ao que você procura", segundo a Microsoft.



"O nome que lhe foi dado deve-se ao fato de funcionar num modelo de difusão, responsável por criar imagens a partir do nada. Mas no processo ele usa algumas estruturas latentes para poder se treinar e reduzir algumas distorções que são geradas nesse tipo de IA" - Microsoft

A ciência por trás do resultado

O que isso significa? Que essa IA tem o que é chamado de "decodificador semântico", o qual vai aprender a reconhecer imagens específicas, a partir das respostas da atividade cebebral de participantes que irão as imagens específicas (ursinho de pelúcia, avião, snowboard ou torre do relógio). Uma vez preparado para reconhecer essas imagens, o decodificador recebe os dados de RMNf dos participantes e tenta recriar uma imagem a partir desses dados.

Portanto, o modelo não é capaz de ler a mente das pessoas, mas pesquisas como essa podem melhorar ainda mais a reconstrução de imagens a partir da interpretação de dados de pessoas observando elas, por RMNf.

Avanços na área

Esse avanço se deu graças a otimização e melhorias nos registros de atividade cerebral, em paralelo à criação de modelos de redes neurais artificiais permitindo comparar diretamente a correspondência entre as representações de imagens dessas duas redes (biológica e artificial), aumentando nossa compreensão de como elas funcionam.

O modelo de difusão estável utilizado pelos pesquisadores é capaz de reduzir os custos computacionais de processamento, além de realizar os cálculos de forma mais eficiente nas fases de treinamento. Isso contribui para a geração de imagens em alta resolução e que tenham uma fidelidade com a imagem apresentada (no caso, vista por pessoas e processada de forma correspondente pelo modelo através dos dados de RMNf)

Aprendendo sobre o que se passa na nossa cabeça

A partir das imagens de alta resolução (como a imagem no início desse post), percebemos que existe um ruído, ou diferenças sutis, entre a imagem recriada pelo modelo, em comparação com a imagem vista pelos participantes do estudo. Segundo os pesquisadores, essas diferenças na reconstrução podem se dar, por exemplo, ao fato de que a experiência visual é particular para cada indivíduo, e o modelo usa os dados vindos de diferentes participantes.

Comparação entre as imagens apresentadas (participantes) e as imagens recriadas (modelo/IA)
Nesta imagem, vemos na primeira coluna (borda em vermelho), imagens apresentadas para os participantes. Nas colunas seguintes (em borda cinza), vemos a recriação pelo modelo/IA, a partir dos dados de seu treinamento para reconhecimento. Adaptado de: Takagi e Nishimoto, 2022)

Segundo os pesquisadores, o modelo apresentou um alto desempenho, em comparação com outras regiões do cérebro, ao processar os sinais de atividade do córtex visual, a região do cérebro responsável pelo processamento inicial das imagens que vemos.

Apesar de ainda desconhecermos o que acontece durante o processamento interno desses tipos de inteligências artificiais (usados pelo estudo), esse estudo inicial traz uma perspectiva muito interessante do processamento de imagens na perspectiva biológica.

Quem sabe algum dia a ficção dos aparelhos que mostram o que a pessoa está pensando possa se aproximar mais da realidade?