Nova ferramenta de IA esclarece o "lado negro" do DNA humano e revela algo valioso
Uma ferramenta poderosa desenvolvida com aprendizado de máquina e IA esclarece o território obscuro das microproteínas, revelando coisas que antes se pensava serem impossíveis de encontrar.

O ShortStop é uma ferramenta de aprendizado de máquina desenvolvida para explorar as áreas mais obscuras e negligenciadas do DNA. Algumas áreas do DNA parecem esconder microproteínas, consideradas relativamente importantes. Elas podem desempenhar um papel importante em doenças, portanto, identificá-las pode levar ao desenvolvimento de mais tratamentos.
As proteínas são frequentemente consideradas fundamentais para a vida, desempenhando inúmeras estruturas e funções no corpo, enquanto as microproteínas têm sido menos valorizadas. Nos 99% do DNA descritos como não codificantes, as microproteínas têm sido praticamente ignoradas.
Cientistas do Instituto Salk mergulharam nesses "lados obscuros" do genoma humano, buscando diretamente microproteínas há muito esquecidas. Para isso, eles usaram a ShortStop.
Com isso, eles conseguiram analisar bancos de dados genéticos e identificar partes do genoma que provavelmente codificam microproteínas. Eles também conseguiram prever quais microproteínas têm maior probabilidade de serem biologicamente importantes. Isso pode ser valioso para a identificação de microproteínas valiosas para pesquisas em saúde e controle de doenças.
“A maioria das proteínas em nossos corpos é bem conhecida, mas descobertas recentes sugerem que estamos perdendo milhares de pequenas proteínas ocultas, chamadas microproteínas, codificadas por regiões esquecidas do nosso genoma”, disse Alan Saghatelian, coautor do estudo.
"Por muito tempo, os cientistas estudaram apenas as regiões do DNA que codificavam proteínas grandes e descartaram o resto como 'DNA lixo', mas agora estamos descobrindo que essas outras regiões são realmente muito importantes, e as microproteínas que elas produzem podem desempenhar um papel fundamental na regulação da saúde e de doenças", complementou.
Microproteína do câncer de pulmão
O ShortStop explica sobre microproteínas que antes eram consideradas impossíveis de encontrar. A ferramenta não apenas encontrou microproteínas difíceis de detectar, como também identificou uma com importância médica.
Em um conjunto de dados sobre câncer de pulmão, 210 novas microproteínas foram encontradas. Uma delas pode abrir caminho para possibilidades terapêuticas. Descobriu-se que essa microproteína é regulada positivamente em tumores de câncer de pulmão.
A equipe analisou o DNA genético dos tumores para identificar algumas das microproteínas funcionais envolvidas, mas uma se destacou: ela era muito mais expressa no tecido tumoral do que no tecido normal. Isso pode significar que ela pode ser identificada como um biomarcador ou microproteína funcional para câncer de pulmão, o que pode contribuir para o desenvolvimento de futuras abordagens terapêuticas para essa doença.
Por que as microproteínas são difíceis de encontrar?
Devido ao seu tamanho, as microproteínas têm sido difíceis de detectar e categorizar. Proteínas padrão podem ter centenas a milhares de aminoácidos, enquanto microproteínas podem ter menos de 150, o que as torna difíceis de identificar usando modelos típicos para proteínas padrão. A equipe teve que pensar de forma diferente para encontrar microproteínas enquanto as buscava em grandes conjuntos de dados.

Também tem sido difícil diferenciar microproteínas funcionais daquelas que não parecem estar associadas a uma função importante no corpo.
O ShortStop é capaz de classificar microproteínas em categorias funcionais e não funcionais graças aos seus sistemas de aprendizado de máquina e treinamento. Ele filtra com eficácia microproteínas que podem não ser biologicamente relevantes e pode analisar conjuntos de dados de RNA usados por muitos laboratórios médicos.
O autor principal do estudo, Brendan Miller, pesquisador de pós-doutorado no laboratório de Saghatelian, disse: "Agora podemos procurar microproteínas em tecidos saudáveis e doentes em larga escala, o que revelará novos insights sobre a biologia humana e abrirá novos caminhos para o diagnóstico e tratamento de doenças como câncer e Alzheimer".
“Já existe uma grande quantidade de dados que agora podemos processar com o ShortStop para encontrar novas microproteínas associadas à saúde e à doença, desde Alzheimer até obesidade e além”, disse Saghatelian.
Ferramentas bem-sucedidas baseadas em IA, como o ShortStop, podem ajudar a acelerar a compreensão da relação entre genética e doenças, auxiliando especialistas no desenvolvimento de terapias no futuro.
Referência da notícia
ShortStop: A machine learning framework for microprotein discovery. 01 de agosto, 2025. Miller, et al.