ISSN: 2157-7064
Samir V. Deshpande, Rabih E. Jabbour, Peter A. Snyder, Michael Stanford, Charles H. Wick et Alan W. Zulich
Nous avons développé une suite d'algorithmes bioinformatiques pour l'identification et la classification automatisées des microbes basées sur l'analyse comparative des séquences protéiques. Cette application utilise les informations de séquence des protéines microbiennes révélées par la protéomique basée sur la spectrométrie de masse pour l'identification et la classification phyloprotéomique. Les algorithmes transforment les résultats de la recherche de spectres d'ions produits d'ions peptidiques dans une base de données de protéines, effectuée par un logiciel disponible dans le commerce (par exemple SEQUEST), en un résultat taxonomique significatif et facile à interpréter. Pour atteindre cet objectif, nous avons construit une base de données de protéines personnalisée composée de protéomes théoriques dérivés de tous les génomes bactériens entièrement séquencés (1204 micro-organismes au 25 août 2010) au format FASTA. Chaque séquence protéique de la base de données est complétée par des informations sur un organisme source et la position chromosomique de chaque cadre de lecture ouvert (ORF) codant pour une protéine est intégrée dans l'en-tête de la séquence protéique. De plus, ces informations sont liées à une position taxonomique de chaque bactérie de la base de données. ABOid analyse les fichiers de résultats de recherche SEQUEST pour fournir les probabilités que les attributions de séquences peptidiques à un spectre de masse d'ions produits (MS/MS) soient correctes et utilise les correspondances spectre-séquence acceptées pour générer une matrice d'attributions séquence-organisme (STO). Étant donné que les séquences peptidiques sont différemment présentes ou absentes dans diverses souches comparées, cela permet la classification des espèces bactériennes de manière à haut débit. À cette fin, les matrices d'attributions STO, considérées comme des bitmaps d'attribution, sont ensuite analysées par un module ABOid qui utilise les relations phylogénétiques entre les espèces bactériennes dans le cadre du processus d'arbre de décision, et en appliquant des techniques statistiques multivariées (analyse des composants principaux et des clusters), pour révéler la relation de l'échantillon inconnu analysé aux micro-organismes de la base de données. Notre algorithme de classification et d'identification bactérienne utilise les attributions d'un organisme analysé à des groupes taxonomiques basés sur un schéma organisé qui commence au niveau du phylum et se poursuit par les classes, les ordres, les familles et le genre jusqu'au niveau de la souche.