ISSN: 2161-0398
David Horn*, Uri Weingart
La méthodologie des peptides spécifiques (SP) a été introduite dans le contexte des enzymes. Elle est basée sur un outil d'apprentissage automatique non supervisé (ML) pour l'extraction de motifs, suivi d'une annotation supervisée des motifs. Dans le cas des enzymes, le classificateur est le numéro de classification enzymatique (EC). Nous réétudions ici ce problème et démontrons que nous atteignons une précision de 0,965 et un rappel de 0,891 sur les séquences protéiques actuellement disponibles. De plus, l'application de notre méthodologie pour interroger les protéines est beaucoup plus rapide que les méthodes d'apprentissage profond utilisées dans le même but.
Nous appliquons également cette méthode à deux autres groupes de protéines, les récepteurs de couplage aux protéines G (GPCR) et les protéines à doigt de zinc, trouvons leurs SP correspondants et fournissons le code permettant de rechercher n'importe quelle séquence protéique pour sa classification dans une telle famille. Certaines protéines qui ont des annotations appartenant à deux des trois systèmes sont en cours de discussion. Notre méthodologie peut être appliquée à n'importe quel groupe de protéines afin de trouver leurs SP correspondants et de fournir le code permettant de rechercher n'importe quelle séquence protéique pour sa classification dans une telle famille.