Google veut faire du protocole robots.txt, qui fête ses 25 ans, un standard Internet

Google diffuse le fichier robots.txt pour la communauté du open source, dans l’espoir que le système devienne un jour un standard Internet stable.

L’un des piliers des activités de Google (et du Web dans son ensemble) est le fichier robots.txt que les sites utilisent pour exclure une partie de leur contenu du robot d’exploration du moteur de recherche, Googlebot. Il minimise l’indexation inutile et conserve parfois des informations sensibles sous le capot. Google pense que sa technologie d’exploration peut s’améliorer, et a donc choisi de lever une partie de son secret. La société est en train d’externaliser l’analyseur utilisé pour décoder robots.txt dans le but de promouvoir un véritable standard pour l’analyse Web. Idéalement, cela élimine en grande partie le mystère de la manière de déchiffrer les fichiers robots.txt et créera davantage un format commun.

Bien que le Robots Exclusion Protocol (protocole d’exclusion des robots) existe depuis un quart de siècle, il ne s’agissait que d’une norme non officielle, ce qui a créé des problèmes pour les équipes interprétant différemment le format. On pourrait traiter un cas de bord différemment d’un autre. L’initiative de Google, qui consiste notamment à soumettre son approche à l’Internet Engineering Task Force, permettrait de « mieux définir » la manière dont les robots d’exploration sont supposés gérer le fichier robots.txt et créer moins de surprises grossières.

Le brouillon n’est pas entièrement disponible, mais il ne fonctionnerait pas uniquement avec des sites Web, inclurait une taille de fichier minimale, définissait une durée de cache maximale d’un jour et accordait une pause aux sites en cas de problèmes de serveur.

Rien ne garantit que cela deviendra une norme, du moins suivant ces directives. Si tel est le cas, toutefois, cela pourrait aider les visiteurs du Web autant que les créateurs. Il serait possible de voir des résultats de recherche Web plus cohérents qui respectent les souhaits des sites. Au moins, cela montre que Google n’est pas totalement opposé à l’ouverture d’actifs importants s’il pense pouvoir faire progresser sa technologie et le secteur au sens large.

Google veut faire du protocole robots.txt, qui fête ses 25 ans, un standard Internet

Esqapes : un centre de massage qui utilise la réalité virtuelle pour offrir une «relaxation immersive»

You May Also Like

Apple a maintenant un compte Instagram officiel pour promouvoir l’iPhone

Ava DuVernay va réaliser le film New Gods de DC

Amazon lance une action en justice contre des influenceurs pour escroquerie sur son site web