O sucesso da anotação de genes via preditores automatizados depende fortemente da



Baixar 4.71 Kb.
Encontro04.06.2018
Tamanho4.71 Kb.

O sucesso da anotação de genes via preditores automatizados depende fortemente da

correta identi_cação dos locais de fronteira entre os trechos codi_cadores e não codi_-

cadores, conhecidos como sítios de junção. A predição computacional destas fronteiras

tem sido abordada por várias técnicas, tais como redes Bayesianas, redes neurais e SVM.

No entanto, uma das di_culdades relacionadas à detecção destas fronteiras é que a sua

identi_cação consiste em um problema de classi_cação altamente desbalanceado. Aprender

em conjuntos onde há um grande desnível entre as classes é mais difícil do que em

situações onde há um equilíbrio. A escolha de como deve ser composto o conjunto de

treinamento parece ser um fator relevante para o sucesso das predições e é um aspecto

pouco explorado no domínio de reconhecimento destes sítios.

Nesta tese, avaliou-se estratégias de composição do conjunto de treinamento adotando

soluções que bene_ciam o aprendizado em problemas com desproporções de classes. Estas

soluções concentram-se em balancear o conjunto de treinamento e, neste contexto, um

novo método de subamostragem, baseado em agrupamento, foi proposto.

A aplicação das estratégias de balanceamento investigadas proporcionou ganhos de

desempenho. Em particular, a técnica de subamostragem denominada de UsBMaC, proposta



nesta tese, foi aquela que apresentou, na maioria dos casos, as maiores taxas de

reconhecimento de sítios de junção.




©aneste.org 2017
enviar mensagem

    Página principal