ISSN: 1745-7580
Johannes Sollner, Rainer Grohmann, Ronald Rapberger, Paul Perco, Arno Lukas and Bernd Mayer
Contexte : L'application de diagnostics et de thérapies à base de peptides imitant une partie de l'antigène protéique connaît un regain d'intérêt. Jusqu'à présent, la sélection et la conception de ces peptides sont généralement motivées par la prédiction de l'épitope des cellules T, la structure 3D expérimentale et modélisée disponible, les prédictions de l'épitope des cellules B telles que les tracés d'hydrophilie ou l'expérience. Si aucune structure n'est disponible, la sélection rationnelle des peptides pour la production d'anticorps altérant ou neutralisant fonctionnellement est pratiquement impossible. Plus précisément, si de nombreux antigènes alternatifs sont disponibles, la réduction des peptides synthétisés requis jusqu'à ce qu'un candidat réussi soit trouvé est d'un intérêt technique central. Nous avons étudié l'intégration de la prédiction de l'épitope des cellules B avec la variabilité de l'antigène et la conservation des modèles de prédiction de modification post-traductionnelle (PTM) pour améliorer l'état de l'art dans le domaine. En particulier, l'application de méthodes d'apprentissage automatique montre des résultats prometteurs. Résultats : Nous constatons que les régions protéiques conduisant à la production d'anticorps altérant fonctionnellement sont souvent caractérisées par une augmentation distincte de la somme cumulative des trois paramètres présentés. De plus, le concept de maximiser l'antigénicité, de minimiser la variabilité et de minimiser la probabilité de modification post-traductionnelle pour l'identification des sites pertinents conduit à des observations biologiquement intéressantes. Principalement, pour environ 50 % des antigènes, l'approche fonctionne bien avec des valeurs individuelles d'aire sous la courbe ROC (AROC) d'au moins 0,65. D'autre part, une partie significative révèle des valeurs AROC équivalentes faibles de < = 0,35 indiquant une distribution globale non gaussienne. Alors qu'environ un tiers des 57 antigènes sont apparemment intangibles par notre approche, nos résultats suggèrent l'existence d'au moins deux classes distinctes d'épitopes détectables bioinformatiquement qui devraient être prédits séparément. Comme effet secondaire de notre étude, nous présentons un ensemble de données organisé à la main pour la validation de la classification de la protection. Sur la base de cet ensemble de données, les méthodes d'apprentissage automatique améliorent encore le pouvoir prédictif d'une séparation de classe dans un ensemble de données équilibré jusqu'à 83 %. Conclusion : Nous présentons une méthode de calcul pour sélectionner et classer automatiquement les peptides pour la stimulation d'anticorps potentiellement protecteurs ou autrement altérant fonctionnellement. Il a été démontré que l'intégration de la variabilité, la conservation du modèle de modification post-traductionnelle et l'antigénicité des cellules B améliorent la sélection rationnelle par rapport aux suppositions aléatoires. Plus important encore, nous constatons que pour environ 50 % des antigènes, l'approche fonctionne nettement mieux que pour l'ensemble des données de 57 protéines. Essentiellement, en tant qu'effet secondaire, notre méthode optimise les peptides vraisemblablement les plus applicables car ils ont tendance à être probablement non modifiés et aussi invariables que possible, ce qui répond aux besoins en matière de diagnostic et de traitement des infections par des agents pathogènes.Nous montrons également le potentiel d’amélioration supplémentaire grâce à l’application de méthodes d’apprentissage automatique, en particulier les forêts aléatoires.