1 mês atrás 22

Cientistas de Goiás criam IA capaz de ler e interpretar DNA brasileiro

Pesquisadores da UFG (Universidade Federal de Goiás) estão criando um modelo fundacional de inteligência artificial, tal qual os que dão vida a ChatGPT (OpenAI) e Gemini (Google), mas com uma especialização diferente: sai a habilidade de lidar com palavras e regras gramaticais, entra a capacidade de ler, interpretar —e, no futuro, recriar— o DNA do brasileiro.

No final das contas tudo é linguagem. Quando a gente fala de NLP (Processamento de Linguagem Natural) ou LLM (Grandes Modelos de Linguagem), o que fazem é processar linguagem [português, inglês, espanhol] usando um código de programação de computador. Por isso que ele sabe construir texto. A habilidade desses modelos é de tratar de linguagens com linguagens. Por que faz sentido usar IA na genética? Uma coisa liga a outra, porque, no final do dia, o código genético é uma linguagem e tem lá sua sintaxe, sua semântica, seu vocabulário

Celso Camilo, professor e cofundador do CEIA (Centro de Excelência de IA) da UFG

Com passagens pela Universidade de Carnegie Mellon e pelas pelas secretarias ligadas à tecnologia do governo de Goiás e da prefeitura de Goiânia, Celso Camilo é um dos fundadores do CEIA-UFG, uma das iniciativas mais bem sucedidas em IA do país.

Não é de hoje que o professor nutre a ideia de colocar máquinas especialistas em linguagem para entender e interpretar o código mais fundamental de nossas vidas, o genético. A equipe do projeto é composta ainda pelo pesquisador Eduardo Souza, cientista de dados sênior do Nubank. Mundo afora, há iniciativas que pretendem dar à IA a capacidade de ler DNA humano. É o caso das prestigiadas universidades Harvard e Stanford, e até de empresas como a Nvidia. No Brasil, não se tem notícia de outros esforços. A diferenciação do que é feito em Goiás está no processo de aprendizado, já que:

Serão três as etapas. Na primeira fase, o modelo de IA vai aprender a estrutura, a sintaxe e a semântica da linguagem genômica. Para isso, serão usados DNAs disponibilizados em bases públicas.
Na segunda, a IA será confrontada com sequências genéticas de brasileiros para aprender quais mutações são mais frequentes na nossa população. Os dados virão da ABraOM (Arquivo Brasileiro Online de Mutações), da USP.
Os primeiros rascunhos do projeto de sequenciamento do genoma humano, que completam 25 anos em 2026, mostraram que 99,99% do DNA é idêntico para quaisquer populações e apenas 0,01% dele é diferente, ou seja, nos torna únicos --nessas poucas bases nitrogenadas estão indicativos de predisposição para certas condições de saúde ou traços da nossa ancestralidade.
Nesse nível de aprendizado, a IA aprenderá a indicar variantes genéticas comuns no Brasil, mas erroneamente classificadas como patogênicas só por serem raras na Europa. Também poderá ajudar a orientar pesquisas mais aprofundadas de especificidades genéticas brasileiras, mas desconsideradas em outros lugares.
A terceira e última fase de treinamento se dividirá em duas. De um lado, o modelo aprenderá quais mutações são patológicas, benignas ou incertas, a partir do ClinVar, que reúne dados de laboratórios de todo mundo e é mantido pelo NIH (Instituto Nacional de Saúde dos EUA). Por outro lado, receberá informações genéticas de pacientes brasileiros diagnosticados com câncer. Assim, poderá distinguir se há especificidades regionais associadas à doença. Esses dados virão do Laboratório Genético da UFG, pioneiro e ainda o único a oferecer testes genéticos gratuitos pelo SUS.
É durante o aprendizado que modelos de IA precisam de muitos recursos computacionais -não à toa o Brasil e o mundo vivem uma corrida para a instalação de data centers, a infraestrutura onde estão armazenados os computadores capazes da missão. Parceira do CEIA-UFG, a AWS (Amazon Web Services) fornecerá a capacidade computacional para o projeto. Segundo o professor Camilo, é difícil mensurar em números quanto processamento será preciso, mas será da ordem de milhões de reais.
A expectativa é ter resultados funcionais de classificação dentro de seis a sete meses. É aí que a "IA do DNA brasileiro" pode fazer a diferença. Quando a hora chegar, os testes começarão no laboratório de genética da UFG.

Continua após a publicidade

Apesar de desvendar os segredos do manual de instruções do nosso corpo, os testes genéticos possuem limitações ao longo de sua elaboração:

Coleta e preparação: após o material biológico (saliva, sangue etc) do paciente ser recolhido, um técnico leva tudo para a bancada do laboratório e manualmente amplifica as informações genéticas ou enriquece regiões específicas do código genético. Ele usa um processo químico, mas é tudo feito amostra a amostra;
Sequenciamento: duas máquinas entram em cena, sendo a primeira para preparar o material e a segunda para ler as ordens das bases do DNA (Adenina, Timina, Citosina e Guanina), ou seja, faz de fato o sequenciamento. Essa etapa leva de dois a quatro dias, mas, por economia, só começa com uma condição: as máquinas geralmente possuem 64 posições e, como os insumos são caros, só são colocadas para rodar se todas elas estiverem preenchidas --é um ônibus que só inicia uma viagem com todos os assentos ocupados; se faltar um só passageiro, todo mundo espera;
Análise bioinformática: aqui, entram em cenas softwares que comparam o resultado do sequenciamento do DNA às bases de dados. As variações encontradas são destinadas a geneticistas. Sim, depois de tudo isso, entram em cena profissionais humanos para interpretar as alterações.

Os pesquisadores de Goiás querem tornar o processo portátil, mais ágil e barato. Primeiro, querem substituir as duas máquinas por um dispositivo sequenciador móvel, leve, com maior custo benefício e capaz de fornecer resultados quase instantâneos —um desses aparelhos pesa menos de 130 gramas e é fabricado por uma companhia nascida na Universidade de Oxford.

O segundo passo é envolver a "IA do DNA brasileiro". Ela receberia o sequenciamento e usaria seu conhecimento acumulado para sinalizar mutações associadas a doenças, além de indicar variações conhecidamente brasileiras que mereceriam atenção. Além disso, o modelo seria mais preciso, pois faria análises no nível do nucleotídeo, a unidade fundamental que forma os ácidos nucleicos, do DNA e RNA.

Ele vai analisar a linguagem genômica e dizer: 'Olha, aqui tem um nucleotídeo que, baseado no meu treinamento, não soa bem, não é algo frequente'. Ele acaba expressando alterações e mutações que não são características daquela população e trabalha para nos ajudar a fazer uma classificação, dizendo se tem potencial de ser ou não benigno
Celso Camilo

Continua após a publicidade

O resultado também sairia mais rápido. Como todo o novo processo pode ser individualizado, sai a lógica do ônibus, entra a do Uber, que viaja com um passageiro só. Isso faria o tempo cair de alguns meses -que pode chegar a um ano no caso da rede pública- para oito horas. Se todas as hipóteses se confirmarem, o professor Camilo e sua equipe calculam redução de custos em 95% para cada paciente, chegando a algo como US$ 17 por teste. Hoje, os mais baratos custam em torno de R$ 400 e os mais específicos saem por cerca de R$ 2 mil, sendo que os hereditários chegam a quase R$ 10 mil.

A "IA do DNA brasileiro" vai começar as análises pelo câncer de mama, uma vez que os dados fornecidos pelo laboratório genético de Goiás para treinamento são de pacientes com essa doença. Mas o modelo pode ser adaptado para detectar mutações que indiquem outros tipos de câncer e de doenças hereditárias.

Uma vez que a IA aprende a linguagem do DNA, o modelo poderia, no longo prazo, não só ler e interpretar as sequências genéticas, mas também escrever códigos genéticos funcionais para propósitos específicos. O professor fala em criar bactérias capazes de degradar plástico, algo de suma importância para o meio ambiente, ou sequências genéticas para plantas como a soja serem resistentes a certas pragas.

"É o que a Embrapa faz hoje, só que tem muito mais processo envolvido e demora muito mais. Essa síntese de bactérias ou o uso para o agro poderia ser acelerada. Mas isso está anos à frente", diz Celso Camilo, do CEIA-UFG Celso Camilo.

DEU TILT

Toda semana, Diogo Cortiz e Helton Simões Gomes conversam sobre as tecnologias que movimentam os humanos por trás das máquinas. O programa é publicado às terças-feiras no YouTube do UOL e nas plataformas de áudio. Assista ao episódio da semana completo.

Continua após a publicidade

TEVE TAMBÉM EM TILT

Deu Tilt #1
Gatonet lucra R$ 1,5 mi ao mês, mas deixa cliente sem final da Libertadores Leia mais

Deu Tilt #2
Gatonet vira multinacional com SAC, parcelado e até publi, diz investigador Leia mais

Deu Tilt #3
Como Brasil virou referência mundial no combate ao gatonet e atrai até FBI Leia mais

Radar Big Tech #1
WhatsApp e 'chega pra lá' da Meta fazem Brasil virar campo de batalha da IA Leia mais

Continua após a publicidade

Radar Big Tech #2
ChatGPT vai detectar menores e limitar conteúdo sensível para este público Leia mais

Radar Big Tech #3
Brasil manda X tirar do ar imagens sexuais feitas com o Grok Leia mais

Diogo Cortiz
IA cria abismo para pobres e condena países (e Brasil) ao atraso permanente Leia mais

Carlos Affonso de Souza
Influenciadores e o Banco Master: quando o marketing vira milícia digital? Leia mais

Brasil
Como é o supercomputador da Petrobras com poder de 10 milhões de celulares Leia mais

História
'Mãe do GPS', matemática Gladys West morre aos 95 anos Leia mais

Continua após a publicidade

Espaço
Por que nova missão tripulada não vai pousar na Lua? O que alega a Nasa Leia mais

Reportagem

Texto que relata acontecimentos, baseado em fatos e dados observados ou verificados diretamente pelo jornalista ou obtidos pelo acesso a fontes jornalísticas reconhecidas e confiáveis.