Une étude récente, partagée sur arXiv, défie l’adage « Garbage In, Garbage Out » (GIGO) en intelligence artificielle. Elle suggère que les modèles d’apprentissage automatique peuvent parfois produire des prédictions de qualité, même lorsqu’ils sont alimentés par des données tabulaires brutes et imparfaites, sans un nettoyage préalable intensif.
Cette observation va à l’encontre de la pratique courante dans le domaine, où une grande importance est accordée à la curation méticuleuse des ensembles de caractéristiques et à l’implémentation de pipelines ETL automatisés. Le principe GIGO est en effet un pilier pour de nombreux professionnels de l’IA/ML, qui s’efforcent de garantir la propreté et la pertinence des données d’entrée.
Pourtant, l’étude met en lumière une réalité parfois observée en pratique : des performances étonnamment bonnes de modèles en aval malgré des données initialement considérées comme « sales ». Cette recherche, dont la simulation est disponible sur GitHub, invite à réévaluer certaines conventions établies.
Cette perspective pourrait potentiellement influencer les méthodologies de préparation des données dans le développement de systèmes d’IA.
Source : Reddit r/artificial