Facebook

Rosetta : L’IA de Facebook peut extraire du texte d’un milliard d’images par jour

Par

le

Il y a tellement de mèmes sur Facebook et Instagram que la société a fait appel à son intelligence artificielle Rosetta pour les comprendre.

Les personnes en ligne ont tendance à communiquer non seulement avec des mots, mais aussi avec des images. Pour une plateforme comme Facebook avec plus de 2 milliards d’utilisateurs actifs par mois, cela signifie qu’une pléthore d’images est partagée chaque jour, y compris les mèmes. Afin d’inclure des images avec du texte dans les résultats de recherche de photos pertinents, pour permettre aux lecteurs d’écran de lire ce qui est écrit dessus et de s’assurer qu’ils ne contiennent pas de discours haineux et d’autres mots contraires à la politique de contenu du site, Facebook a déployé un système de machine learning à grande échelle appelé « Rosetta ».

Facebook avait besoin d’un système de reconnaissance optique des caractères capable de traiter régulièrement d’énormes volumes de contenu. Il lui fallait donc créer sa propre technologie. Selon le réseau social, Rosetta extrait chaque jour du texte de plus d’un milliard d’images et de séquences vidéo dans une grande variété de langues en temps réel.

Dans un nouveau billet de blog, la société a expliqué comment fonctionne Rosetta: elle commence par détecter les régions rectangulaires des images susceptibles de contenir du texte. Il utilise ensuite un réseau de neurones à convolution pour reconnaître et transcrire ce qui est écrit dans cette zone, même des mots non anglais ou des alphabets non latins, tels que l’arabe et l’hindi. Pour former le système, Facebook a utilisé une combinaison d’images publiques annotées par l’homme et par la machine.

Diverses équipes de Facebook et d’Instagram utilisent déjà Rosetta pour créer plus de contenu et contrôler leurs plateformes. La société prévoit de continuer à augmenter le nombre de langues reconnues et de mieux extraire du texte des images vidéo.

A propos de langues, Facebook a également ajouté 24 nouvelles langues à ses services de traduction automatique: serbe, biélorusse, marathi, cinghalais, telugu, népalais, kannada, ourdou, punjabi, cambodgien, pachtou, mongol, zoulou, xhosa et somali. Facebook admet que les traductions de ces langues en sont à leurs débuts et que de nombreuses erreurs subsisteront. Il prévoit cependant de continuer à les améliorer et d’introduire plus de langues à l’avenir.

Articles recommandés