ISSN: 2167-7670
Panagiotis Mélétis
La compréhension globale de la scène est un élément essentiel des véhicules autonomes du futur. Il est crucial que ces véhicules soient capables de comprendre et d’interpréter leur environnement afin de rouler en toute sécurité. Cela nécessite une détection précise des objets environnants (véhicules, humains, objets de circulation, nature), une discrimination entre les surfaces carrossables et non carrossables (route, trottoir, bâtiments) et une segmentation des objets statiques et dynamiques en classes sémantiques de haut niveau . Dans le passé, la vision par ordinateur abordait ces problèmes séparément en raison de leur complexité et de leurs besoins informatiques élevés. De nos jours, les systèmes basés sur l'apprentissage profond sont formés sur des ensembles de données annotés manuellement pour résoudre ces problèmes, mais ils sont confrontés à de multiples défis : 1) le nombre de classes sémantiques annotées est limité par les ensembles de données disponibles à quelques dizaines, ce qui diminue la variété des objets reconnaissables, 2) la densité des annotations est inversement proportionnelle à la taille des ensembles de données, ce qui rend un énorme ensemble de données incompatible pour une segmentation précise, et 3) la détection et la segmentation sont résolues séparément, ce qui entraîne des exigences de mémoire et de calcul plus élevées. Notre recherche répond aux défis susmentionnés en proposant de nouvelles méthodes pour : 1) former un réseau unique sur plusieurs ensembles de données avec différentes classes sémantiques et différents types d'annotations, et 2) résoudre simultanément avec un seul réseau les problèmes de détection et de segmentation sémantique. Nous avons déployé ces réseaux dans notre voiture autonome avec des performances en temps réel. Nous démontrons des résultats de pointe, ainsi qu'une multiplication par cinq du nombre de classes reconnaissables, et nous intégrons efficacement la détection et la segmentation dans un système de segmentation panoptique commun, franchissant ainsi des étapes importantes vers une compréhension holistique de la scène.