Inteligência artificial aprende a reconstruir imagens vistas por pessoas
Pesquisadores japoneses utilizaram uma inteligência artificial para reconstruir imagens que foram apresentadas para as pessoas com fidelidade impressionante, a partir de dados de exames funcionais do cérebro (ressonância magnética funcional - RMNf). Esses achados podem nos aproximar de um maior entendimento de como reconstruímos a realidade ao nosso redor.
Pesquisadores da Universidade de Osaka, no Japão, compartilharam uma publicação no formato pré-impressão (ou preprint do inglês, ainda não revisado pelos pares) propondo um novo método reconstruir imagens da atividade cerebral humana obtidas por ressonância magnética funcional (RMNf).
As imagens obtidas são impressionantes por sua alta resolução e alta fidelidade.
Uma Inteligência Artificial (IA) que lê mentes?
Não, ela ainda não lê mentes e também não é aquelas inteligências artificiais de filmes Holywoodianos, mas não deixa de ser uma abordagem interessante. Os pesquisadores utilizaram o que se chama de modelo de difusão estável (do inglês, Stable Diffusion) que, através do aprendizado de máquina, "quanto mais ele é usado, ele aprende a te dar mais resultados que vão de encontro ao que você procura", segundo a Microsoft.
"O nome que lhe foi dado deve-se ao fato de funcionar num modelo de difusão, responsável por criar imagens a partir do nada. Mas no processo ele usa algumas estruturas latentes para poder se treinar e reduzir algumas distorções que são geradas nesse tipo de IA" - Microsoft
A ciência por trás do resultado
O que isso significa? Que essa IA tem o que é chamado de "decodificador semântico", o qual vai aprender a reconhecer imagens específicas, a partir das respostas da atividade cebebral de participantes que irão as imagens específicas (ursinho de pelúcia, avião, snowboard ou torre do relógio). Uma vez preparado para reconhecer essas imagens, o decodificador recebe os dados de RMNf dos participantes e tenta recriar uma imagem a partir desses dados.
Avanços na área
Esse avanço se deu graças a otimização e melhorias nos registros de atividade cerebral, em paralelo à criação de modelos de redes neurais artificiais permitindo comparar diretamente a correspondência entre as representações de imagens dessas duas redes (biológica e artificial), aumentando nossa compreensão de como elas funcionam.
O modelo de difusão estável utilizado pelos pesquisadores é capaz de reduzir os custos computacionais de processamento, além de realizar os cálculos de forma mais eficiente nas fases de treinamento. Isso contribui para a geração de imagens em alta resolução e que tenham uma fidelidade com a imagem apresentada (no caso, vista por pessoas e processada de forma correspondente pelo modelo através dos dados de RMNf)
Aprendendo sobre o que se passa na nossa cabeça
A partir das imagens de alta resolução (como a imagem no início desse post), percebemos que existe um ruído, ou diferenças sutis, entre a imagem recriada pelo modelo, em comparação com a imagem vista pelos participantes do estudo. Segundo os pesquisadores, essas diferenças na reconstrução podem se dar, por exemplo, ao fato de que a experiência visual é particular para cada indivíduo, e o modelo usa os dados vindos de diferentes participantes.
Segundo os pesquisadores, o modelo apresentou um alto desempenho, em comparação com outras regiões do cérebro, ao processar os sinais de atividade do córtex visual, a região do cérebro responsável pelo processamento inicial das imagens que vemos.
Quem sabe algum dia a ficção dos aparelhos que mostram o que a pessoa está pensando possa se aproximar mais da realidade?