2 horas atrás 1

Cientistas de Goiás criam IA capaz de ler e interpretar DNA brasileiro

Pesquisadores da UFG (Universidade Federal de Goiás) estão criando um modelo fundacional de inteligência artificial, tal qual os que dão vida a ChatGPT (OpenAI) e Gemini (Google), mas com uma especialização diferente: sai a habilidade de lidar com palavras e regras gramaticais, entra a capacidade de ler, interpretar —e, no futuro, recriar— o DNA do brasileiro.

No final das contas tudo é linguagem. Quando a gente fala de NLP (Processamento de Linguagem Natural) ou LLM (Grandes Modelos de Linguagem), o que fazem é processar linguagem [português, inglês, espanhol] usando um código de programação de computador. Por isso que ele sabe construir texto. A habilidade desses modelos é de tratar de linguagens com linguagens. Por que faz sentido usar IA na genética? Uma coisa liga a outra, porque, no final do dia, o código genético é uma linguagem e tem lá sua sintaxe, sua semântica, seu vocabulário

Celso Camilo, professor e cofundador do CEIA (Centro de Excelência de IA) da UFG

Imagem

Com passagens pela Universidade de Carnegie Mellon e pelas pelas secretarias ligadas à tecnologia do governo de Goiás e da prefeitura de Goiânia, Celso Camilo é um dos fundadores do CEIA-UFG, uma das iniciativas mais bem sucedidas em IA do país.

Não é de hoje que o professor nutre a ideia de colocar máquinas especialistas em linguagem para entender e interpretar o código mais fundamental de nossas vidas, o genético. A equipe do projeto é composta ainda pelo pesquisador Eduardo Souza, cientista de dados sênior do Nubank. Mundo afora, há iniciativas que pretendem dar à IA a capacidade de ler DNA humano. É o caso das prestigiadas universidades Harvard e Stanford, e até de empresas como a Nvidia. No Brasil, não se tem notícia de outros esforços. A diferenciação do que é feito em Goiás está no processo de aprendizado, já que:

  • Serão três as etapas. Na primeira fase, o modelo de IA vai aprender a estrutura, a sintaxe e a semântica da linguagem genômica. Para isso, serão usados DNAs disponibilizados em bases públicas.
  • Na segunda, a IA será confrontada com sequências genéticas de brasileiros para aprender quais mutações são mais frequentes na nossa população. Os dados virão da ABraOM (Arquivo Brasileiro Online de Mutações), da USP.
  • Os primeiros rascunhos do projeto de sequenciamento do genoma humano, que completam 25 anos em 2026, mostraram que 99,99% do DNA é idêntico para quaisquer populações e apenas 0,01% dele é diferente, ou seja, nos torna únicos --nessas poucas bases nitrogenadas estão indicativos de predisposição para certas condições de saúde ou traços da nossa ancestralidade.
  • Nesse nível de aprendizado, a IA aprenderá a indicar variantes genéticas comuns no Brasil, mas erroneamente classificadas como patogênicas só por serem raras na Europa. Também poderá ajudar a orientar pesquisas mais aprofundadas de especificidades genéticas brasileiras, mas desconsideradas em outros lugares.
  • A terceira e última fase de treinamento se dividirá em duas. De um lado, o modelo aprenderá quais mutações são patológicas, benignas ou incertas, a partir do ClinVar, que reúne dados de laboratórios de todo mundo e é mantido pelo NIH (Instituto Nacional de Saúde dos EUA). Por outro lado, receberá informações genéticas de pacientes brasileiros diagnosticados com câncer. Assim, poderá distinguir se há especificidades regionais associadas à doença. Esses dados virão do Laboratório Genético da UFG, pioneiro e ainda o único a oferecer testes genéticos gratuitos pelo SUS.
  • É durante o aprendizado que modelos de IA precisam de muitos recursos computacionais -não à toa o Brasil e o mundo vivem uma corrida para a instalação de data centers, a infraestrutura onde estão armazenados os computadores capazes da missão. Parceira do CEIA-UFG, a AWS (Amazon Web Services) fornecerá a capacidade computacional para o projeto. Segundo o professor Camilo, é difícil mensurar em números quanto processamento será preciso, mas será da ordem de milhões de reais.
  • A expectativa é ter resultados funcionais de classificação dentro de seis a sete meses. É aí que a "IA do DNA brasileiro" pode fazer a diferença. Quando a hora chegar, os testes começarão no laboratório de genética da UFG.
Continua após a publicidade
Imagem

Apesar de desvendar os segredos do manual de instruções do nosso corpo, os testes genéticos possuem limitações ao longo de sua elaboração:

  • Coleta e preparação: após o material biológico (saliva, sangue etc) do paciente ser recolhido, um técnico leva tudo para a bancada do laboratório e manualmente amplifica as informações genéticas ou enriquece regiões específicas do código genético. Ele usa um processo químico, mas é tudo feito amostra a amostra;
  • Sequenciamento: duas máquinas entram em cena, sendo a primeira para preparar o material e a segunda para ler as ordens das bases do DNA (Adenina, Timina, Citosina e Guanina), ou seja, faz de fato o sequenciamento. Essa etapa leva de dois a quatro dias, mas, por economia, só começa com uma condição: as máquinas geralmente possuem 64 posições e, como os insumos são caros, só são colocadas para rodar se todas elas estiverem preenchidas --é um ônibus que só inicia uma viagem com todos os assentos ocupados; se faltar um só passageiro, todo mundo espera;
  • Análise bioinformática: aqui, entram em cenas softwares que comparam o resultado do sequenciamento do DNA às bases de dados. As variações encontradas são destinadas a geneticistas. Sim, depois de tudo isso, entram em cena profissionais humanos para interpretar as alterações.

Os pesquisadores de Goiás querem tornar o processo portátil, mais ágil e barato. Primeiro, querem substituir as duas máquinas por um dispositivo sequenciador móvel, leve, com maior custo benefício e capaz de fornecer resultados quase instantâneos —um desses aparelhos pesa menos de 130 gramas e é fabricado por uma companhia nascida na Universidade de Oxford.

O segundo passo é envolver a "IA do DNA brasileiro". Ela receberia o sequenciamento e usaria seu conhecimento acumulado para sinalizar mutações associadas a doenças, além de indicar variações conhecidamente brasileiras que mereceriam atenção. Além disso, o modelo seria mais preciso, pois faria análises no nível do nucleotídeo, a unidade fundamental que forma os ácidos nucleicos, do DNA e RNA.

Ele vai analisar a linguagem genômica e dizer: 'Olha, aqui tem um nucleotídeo que, baseado no meu treinamento, não soa bem, não é algo frequente'. Ele acaba expressando alterações e mutações que não são características daquela população e trabalha para nos ajudar a fazer uma classificação, dizendo se tem potencial de ser ou não benigno
Celso Camilo

Continua após a publicidade

O resultado também sairia mais rápido. Como todo o novo processo pode ser individualizado, sai a lógica do ônibus, entra a do Uber, que viaja com um passageiro só. Isso faria o tempo cair de alguns meses -que pode chegar a um ano no caso da rede pública- para oito horas. Se todas as hipóteses se confirmarem, o professor Camilo e sua equipe calculam redução de custos em 95% para cada paciente, chegando a algo como US$ 17 por teste. Hoje, os mais baratos custam em torno de R$ 400 e os mais específicos saem por cerca de R$ 2 mil, sendo que os hereditários chegam a quase R$ 10 mil.

Imagem

A "IA do DNA brasileiro" vai começar as análises pelo câncer de mama, uma vez que os dados fornecidos pelo laboratório genético de Goiás para treinamento são de pacientes com essa doença. Mas o modelo pode ser adaptado para detectar mutações que indiquem outros tipos de câncer e de doenças hereditárias.

Uma vez que a IA aprende a linguagem do DNA, o modelo poderia, no longo prazo, não só ler e interpretar as sequências genéticas, mas também escrever códigos genéticos funcionais para propósitos específicos. O professor fala em criar bactérias capazes de degradar plástico, algo de suma importância para o meio ambiente, ou sequências genéticas para plantas como a soja serem resistentes a certas pragas.

"É o que a Embrapa faz hoje, só que tem muito mais processo envolvido e demora muito mais. Essa síntese de bactérias ou o uso para o agro poderia ser acelerada. Mas isso está anos à frente", diz Celso Camilo, do CEIA-UFG Celso Camilo.

DEU TILT

Toda semana, Diogo Cortiz e Helton Simões Gomes conversam sobre as tecnologias que movimentam os humanos por trás das máquinas. O programa é publicado às terças-feiras no YouTube do UOL e nas plataformas de áudio. Assista ao episódio da semana completo.

Continua após a publicidade

TEVE TAMBÉM EM TILT

Deu Tilt #1
Gatonet lucra R$ 1,5 mi ao mês, mas deixa cliente sem final da Libertadores Leia mais

Deu Tilt #2
Gatonet vira multinacional com SAC, parcelado e até publi, diz investigador Leia mais

Deu Tilt #3
Como Brasil virou referência mundial no combate ao gatonet e atrai até FBI Leia mais

Radar Big Tech #1
WhatsApp e 'chega pra lá' da Meta fazem Brasil virar campo de batalha da IA Leia mais

Continua após a publicidade

Radar Big Tech #2
ChatGPT vai detectar menores e limitar conteúdo sensível para este público Leia mais

Radar Big Tech #3
Brasil manda X tirar do ar imagens sexuais feitas com o Grok Leia mais

Diogo Cortiz
IA cria abismo para pobres e condena países (e Brasil) ao atraso permanente Leia mais

Carlos Affonso de Souza
Influenciadores e o Banco Master: quando o marketing vira milícia digital? Leia mais

Brasil
Como é o supercomputador da Petrobras com poder de 10 milhões de celulares Leia mais

História
'Mãe do GPS', matemática Gladys West morre aos 95 anos Leia mais

Continua após a publicidade

Espaço
Por que nova missão tripulada não vai pousar na Lua? O que alega a Nasa Leia mais

Reportagem

Texto que relata acontecimentos, baseado em fatos e dados observados ou verificados diretamente pelo jornalista ou obtidos pelo acesso a fontes jornalísticas reconhecidas e confiáveis.

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro