Microsoft aurait utilisé des données web non licenciées pour entraîner ses modèles MAI

Microsoft aurait entraîné ses nouveaux modèles d’intelligence artificielle MAI en partie sur des données web non licenciées, contredisant ses propres affirmations de proposer des données « propres et sous licence commerciale ».

Selon The Decoder, le géant technologique aurait utilisé des sources comme Common Crawl, un corpus de données web publiques. Cette pratique, similaire à celle d’autres laboratoires d’IA, s’appuierait sur le principe du « fair use » (usage équitable).

Microsoft laisserait ainsi aux propriétaires de sites la responsabilité de bloquer ses robots d’exploration s’ils souhaitent que leurs contenus ne soient pas utilisés. Cette approche soulève des questions sur la provenance des données d’entraînement des IA.

Source : The Decoder

Catégories : Brèves IA
← Article précédentSergey Brin (Google) voit l'IA progresser vers l'AGI, mais pas au-delàArticle suivant →IA en cybersécurité : seulement 10% des SOC jugent leur valeur excellente

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES