21 – 25 de ago. de 2023
IFSC/USP
Fuso horário America/Sao_Paulo

Florestas bipartidas semi-supervisionadas para predição de interações

21 de ago. de 2023 16:00
1h 30m
Salão de Eventos USP

Salão de Eventos USP

Prêmio YPM 16h00 - 17h30

Descrição

Diversas tarefas de aprendizado de máquina podem ser formuladas como a predição de interações entre pares de entidades, muitas vezes representando relações entre objetos de duas classes distintas. Exemplos de tais tarefas são abundantes na biologia molecular computacional e incluem a predição de interações entre proteínas, entre proteínas e fármacos, entre proteínas e RNAs longos não codificantes (lncRNA) e entre microRNAs e RNAs mensageiros. O presente trabalho visa estudar e aprimorar algoritmos de aprendizado especificamente voltados a resolver esse tipo de problema, propondo modificações que melhorem tanto sua performance de predição como sua complexidade computacional. Aspectos complicantes dos problemas de predição de interações são as altas dimensionalidade e esparsidade dos rótulos disponíveis, que se originam natureza quadrática do número de possíveis pares em relação ao número de entidades de cada tipo. Como consequência, uma parcela pequena das possiveis interações são experimentalmente verificadas e compõem o conjunto de dados de treinamento, e a maioria das interações são desconhecidas. Tal cenário, por vezes denotado positive-unlabeled learning, coloca nuâncias na forma como o treinamento dos modelos é realizado e sugere que abordagens semi-supervisionadas, em que agrupamentos de entidades compõem o processo de treinamento, podem apresentar vantagens conforme o número de interações desconhecidas aumenta. (1) Assim, propomos algoritmos baseados em árvores de decisão semi-supervisionadas que operam diretamente sobre redes bipartidas, e os comparamos com modelos já bem estabelecidos na literatura. Mostramos desempenho de predição competitivo com o estado-da-arte em diferentes tarefas de predição de interações, e ganhos no tempo de treinamento são demonstrados para as adaptações de algoritmo desenvolvidas em relação aos modelos originais. Espera-se que as ideias discutidas e ferramentas disponibilizadas possam fomentar o estudo das àrvores bipartidas e permitir que dados cada vez mais volumosos sejam levados integralmente em consideração.

Referências

1 BEKKER, J.; DAVIS, J. Learning from positive and unlabeled data: a survey. Machine Learning, v. 109, n. 4, p. 719-760, Apr. 2020.

Certifico que os nomes citados como autor e coautor estão cientes de suas nomeações. Sim
Palavras-chave Aprendizado de máquina. Predição de interações. Árvores de decisão.
Orientador e coorientador Otavio Henrique Thiemann. Ricardo Cerri.
Subárea 1 Biotecnologia
Subárea 2 (opcional) Física Computacional
Subárea 3 (opcional) Redes Complexas
Agência de Fomento CAPES
Número de Processo 88887.529627/2020-00; 88887.641930/2021-00; 88887.684441/2022-00
Modalidade MESTRADO
Concessão de Direitos Autorais Sim

Autor primário

Pedro Ilídio (Instituto de Física de São Carlos - USP)

Co-autores

André Hallwas Ribeiro Alves (Universidade Federal de São Carlos - UFSCar) Otavio Henrique Thiemann (Instituto de Física de São Carlos - USP) Prof. Ricardo Cerri (Universidade Federal de São Carlos - UFSCar)

Materiais de apresentação

Ainda não há materiais