banner
Centro de notícias
Obtenha suporte a qualquer momento com nosso serviço online 24 horas.

Desempacotando a “caixa preta” para construir melhores modelos de IA

Dec 28, 2023

As imagens para download no site do MIT News office são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, a não ser recortá-las no tamanho certo. Uma linha de crédito deve ser utilizada na reprodução de imagens; se não for fornecido abaixo, credite as imagens ao "MIT".

Imagem anterior Próxima imagem

Quando modelos de aprendizagem profunda são implantados no mundo real, talvez para detectar fraudes financeiras provenientes de atividades de cartão de crédito ou identificar câncer em imagens médicas, eles geralmente conseguem superar os humanos.

Mas o que exatamente esses modelos de aprendizagem profunda estão aprendendo? Será que um modelo treinado para detectar câncer de pele em imagens clínicas, por exemplo, realmente aprende as cores e texturas do tecido canceroso, ou está sinalizando algumas outras características ou padrões?

Esses poderosos modelos de aprendizado de máquina são normalmente baseados em redes neurais artificiais que podem ter milhões de nós que processam dados para fazer previsões. Devido à sua complexidade, os investigadores chamam frequentemente estes modelos de “caixas negras” porque mesmo os cientistas que os constroem não compreendem tudo o que se passa nos bastidores.

Stefanie Jegelka não está satisfeita com essa explicação da “caixa preta”. Professor associado recém-admitido no Departamento de Engenharia Elétrica e Ciência da Computação do MIT, Jegelka está se aprofundando no aprendizado profundo para entender o que esses modelos podem aprender e como eles se comportam, e como incorporar certas informações prévias nesses modelos.

“No final das contas, o que um modelo de aprendizagem profunda aprenderá depende de muitos fatores. Mas construir um entendimento que seja relevante na prática nos ajudará a projetar modelos melhores e também a entender o que está acontecendo dentro deles, para sabermos quando podemos implantar um modelo e quando não podemos. Isso é extremamente importante”, diz Jegelka, que também é membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e do Instituto de Dados, Sistemas e Sociedade (IDSS).

Jegelka está particularmente interessado em otimizar modelos de aprendizado de máquina quando os dados de entrada estão na forma de gráficos. Os dados gráficos apresentam desafios específicos: por exemplo, as informações nos dados consistem em informações sobre nós e arestas individuais, bem como na estrutura – o que está conectado a quê. Além disso, os gráficos possuem simetrias matemáticas que precisam ser respeitadas pelo modelo de aprendizado de máquina para que, por exemplo, o mesmo gráfico leve sempre à mesma previsão. Construir essas simetrias em um modelo de aprendizado de máquina geralmente não é fácil.

Veja as moléculas, por exemplo. As moléculas podem ser representadas como gráficos, com vértices que correspondem aos átomos e arestas que correspondem às ligações químicas entre eles. As empresas farmacêuticas podem querer usar a aprendizagem profunda para prever rapidamente as propriedades de muitas moléculas, reduzindo o número que devem testar fisicamente no laboratório.

Jegelka estuda métodos para construir modelos matemáticos de aprendizado de máquina que podem efetivamente usar dados gráficos como entrada e produzir outra coisa, neste caso uma previsão das propriedades químicas de uma molécula. Isto é particularmente desafiador, uma vez que as propriedades de uma molécula são determinadas não apenas pelos átomos dentro dela, mas também pelas conexões entre eles.

Outros exemplos de aprendizado de máquina em gráficos incluem roteamento de tráfego, design de chips e sistemas de recomendação.

A concepção destes modelos é ainda mais difícil pelo facto de os dados utilizados para os treinar serem muitas vezes diferentes dos dados que os modelos vêem na prática. Talvez o modelo tenha sido treinado usando pequenos gráficos moleculares ou redes de tráfego, mas os gráficos que ele vê uma vez implantados são maiores ou mais complexos.

Neste caso, o que podem os investigadores esperar que este modelo aprenda, e será que ainda funcionará na prática se os dados do mundo real forem diferentes?