fbpx

Google veut faire du protocole robots.txt, qui fête ses 25 ans, un standard Internet

Par

le

Google diffuse le fichier robots.txt pour la communauté du open source, dans l’espoir que le système devienne un jour un standard Internet stable.

L’un des piliers des activités de Google (et du Web dans son ensemble) est le fichier robots.txt que les sites utilisent pour exclure une partie de leur contenu du robot d’exploration du moteur de recherche, Googlebot. Il minimise l’indexation inutile et conserve parfois des informations sensibles sous le capot. Google pense que sa technologie d’exploration peut s’améliorer, et a donc choisi de lever une partie de son secret. La société est en train d’externaliser l’analyseur utilisé pour décoder robots.txt dans le but de promouvoir un véritable standard pour l’analyse Web. Idéalement, cela élimine en grande partie le mystère de la manière de déchiffrer les fichiers robots.txt et créera davantage un format commun.

Bien que le Robots Exclusion Protocol (protocole d’exclusion des robots) existe depuis un quart de siècle, il ne s’agissait que d’une norme non officielle, ce qui a créé des problèmes pour les équipes interprétant différemment le format. On pourrait traiter un cas de bord différemment d’un autre. L’initiative de Google, qui consiste notamment à soumettre son approche à l’Internet Engineering Task Force, permettrait de « mieux définir » la manière dont les robots d’exploration sont supposés gérer le fichier robots.txt et créer moins de surprises grossières.

Le brouillon n’est pas entièrement disponible, mais il ne fonctionnerait pas uniquement avec des sites Web, inclurait une taille de fichier minimale, définissait une durée de cache maximale d’un jour et accordait une pause aux sites en cas de problèmes de serveur.

Rien ne garantit que cela deviendra une norme, du moins suivant ces directives. Si tel est le cas, toutefois, cela pourrait aider les visiteurs du Web autant que les créateurs. Il serait possible de voir des résultats de recherche Web plus cohérents qui respectent les souhaits des sites. Au moins, cela montre que Google n’est pas totalement opposé à l’ouverture d’actifs importants s’il pense pouvoir faire progresser sa technologie et le secteur au sens large.

Articles recommandés

Suivez-nous sur les réseaux sociaux !

Pour ne rien rater de l’actualité High Tech, Geek & Insolite, suivez-nous sur Facebook et Twitter 😉