ISSN: 2165- 7866
Abdalla Bala et Alain Abran
Les référentiels multi-organisationnels, en particulier ceux basés sur des contributions de données volontaires tels que le référentiel de l'International Software Benchmarking Standards Group (ISBSG), peuvent manquer un grand nombre de valeurs pour bon nombre de leurs champs de données, ainsi que contenir certaines valeurs aberrantes. Cet article suggère un certain nombre de problèmes de qualité des données associés au référentiel ISBSG qui peuvent compromettre les résultats pour les utilisateurs qui l'exploitent à des fins d'analyse comparative ou pour la construction de modèles d'estimation. Nous proposons un certain nombre de critères et de techniques de prétraitement des données afin d'améliorer la qualité des échantillons identifiés pour une analyse statistique détaillée, et présentons une stratégie d'imputation multiple (IM) pour traiter les ensembles de données avec des valeurs manquantes.