En février, Google a été invité à supprimer une page qui semblait fournir des informations destinées aux pédophiles. Le moteur de recherche a finalement cédé, déterminant que le matériel était illégal. Aurait-il dû supprimer la page ? Oui. Pour des raisons légales ? C’était une excuse pratique, mais la bonne réponse était simplement parce que c’était un mauvais résultat pour la requête pour laquelle elle apparaissait.
L’histoire ci-dessous est assemblée à partir des commentaires que j’ai faits sur l’affaire dans le rapport sur les moteurs de recherche de mars et avril 2003. Les commentaires étaient associés à des articles d’autres sources sur l’affaire. Je les ai tous rassemblés ici dans cet article pour une lecture facile.
L’histoire a commencé lorsqu’un concepteur de sites Web de la ville anglaise de Chester a fait une recherche pour « chester guide » et a été choqué de trouver Chester’s guide to: Picking up little girls » répertorié comme deuxième résultat, comme expliqué dans cet article de février 2003 du Cheshire Chronique Le contenu de cette page, que j’ai vu en suivant l’article, était assez dégoûtant. Cependant, cela ne semblait pas illégal en vertu de la loi britannique. Cela signifie que lorsque Google a été initialement invité à supprimer le site de ses listes, le moteur de recherche a répondu que c’était quelque chose qu’il ne ferait pas.
Un deuxième article du Cheshire Chronicle documente qu’après une campagne de lecture menée par le journal local de Chester, Google n’avait toujours pas abandonné la page à la mi-février. Un lecteur a reçu une réponse officielle de Google qui disait : Seul un administrateur peut, en incluant du code qui bloque nos robots ou en nous soumettant une demande, empêcher sa page d’être répertoriée. Ce n’était pas correct du tout. Google peut extraire des pages de son index et le fait pour diverses raisons, sans le consentement de l’administrateur.
Lorsque j’ai suivi le deuxième article, la page n’était plus du tout répertoriée dans Google – pas seulement en réponse à une recherche du guide de Chester », mais même dans une recherche pour voir spécifiquement si Google porte la page dans son index. Environ une semaine plus tard, il est apparu que Google avait décidé que le site était illégal et a retiré la liste.
Malgré cela, la page est restée sur le Web, bien sûr, ce n’est pas quelque chose que Google peut contrôler. Et comme il se trouve sur le Web, n’importe quel autre moteur de recherche pourrait le trouver. C’est pourquoi il figurait dans les index d’Inktomi et d’AltaVista, fin février 2003. Mais il ne s’est pas bien classé pour chester guide » et probablement d’autres recherches innocentes que les gens pourraient faire, donc ces deux moteurs de recherche ont échappé à la colère qui s’est abattue sur Google.
En mars 2003, Seth Finkelstein a suivi la situation dans son article du Chester’s Guide to Molesting Google (et The Register était injuste de dire qu’il a truqué les résultats en recherchant l’article. Comme Finkelstein l’explique correctement, il a simplement cherché de manière à montrer rapidement que la page existait dans les index des autres moteurs de recherche).
Finkelstein a découvert que la page n’était apparemment pas sérieuse. Au lieu de cela, c’était l’un des nombreux exemples d’humour malsain offert par le site Web d’hébergement. À ce stade, la page en question a également obtenu un avertissement disant que c’est de l’humour, mais pas pour les sensibles. Ce n’était pas sur la page pendant que le débat faisait rage.
Malgré le nouveau développement, le débat n’aurait toujours pas dû porter sur la question de savoir si la page devait être retirée ou non, pour des raisons juridiques ou autres. La question était vraiment de savoir si cette page aurait dû être classée en tête du classement « chester guide » dans Google ?
La réponse est tout simplement non. Ce n’est pas du tout ce à quoi la grande majorité des chercheurs sur ce terme se serait attendu. Ceux qui consultent la page – soi-disant humoristiques ou non – auraient été exposés à une lecture assez dégoûtante.
La bonne réponse dans cette situation aurait été que Google ait simplement ajusté les choses afin que la page ne soit pas bien classée pour cette recherche particulière. Google déteste faire des choses comme ça. Néanmoins, cela aurait été la bonne chose à faire. Les citoyens de Chester auraient vu leurs préoccupations prises en compte, la grande majorité des chercheurs auraient bénéficié du changement, et les militants anti-censure comme Finkelstein seraient apaisés dans une certaine mesure sachant que la page n’avait pas été purement et simplement supprimée.
Jour : 31 août 2021
Google tire une nouvelle salve dans les guerres de taille des moteurs de recherche
Google a annoncé aujourd’hui que son index Web s’élevait à plus de 3 milliards de documents, y compris une archive Usenet complète datant de 1981. Le moteur de recherche met également l’accent sur la fraîcheur, réindexant quotidiennement plusieurs millions de pages, comme ainsi que l’ajout de liens vers des articles d’actualité pertinents pour de nombreuses requêtes.
Sur les 3 milliards de documents interrogeables au total, 2 milliards sont des pages Web, avec plus de 75 % de ces pages entièrement indexées. 700 millions sont des publications Usenet et 330 millions sont des images. Pour rechercher manuellement dans notre collection de 3 milliards de documents, cela prendrait 5 707 ans, en cherchant vingt-quatre heures par jour, à raison d’une minute par document », a déclaré Larry Page, co-fondateur et président de Google Products. Avec Google, cela prend moins d’une seconde.
Nous avons augmenté la taille de l’index au-delà de ce que nous avons officiellement déclaré », a déclaré Urs HÖlzle, Google Fellow. HÖlzle a ajouté que l’augmentation de l’index de Google n’a pas nécessité de changements importants. Nous surveillons continuellement la qualité et n’avons pas eu autant de changements depuis l’annonce du milliard de pages.
Bien que l’index Web amélioré soit certainement une réalisation impressionnante, peut-être encore plus remarquable est l’index Usenet complet de Google de 700 millions de publications dans plus de 35 000 catégories thématiques, avec une archive complète remontant à 1981 – l’année où Usenet a commencé.
L’une des plus grandes plaintes de la communauté Usenet est que même Deja n’a jamais rien eu de proche d’une archive Usenet complète », a déclaré HÖlzle. Nous avons pu trouver toutes les archives Usenet et les indexer » avec l’aide d’un certain nombre de personnes qui ont conservé les archives et les ont mises à la disposition de Google, a expliqué HÖlzle.
L’archive Usenet de Google Groups révèle une vue détaillée de deux décennies d’histoire, c’est-à-dire dix ans de contenu qui existait avant la naissance du Web », a déclaré Sergey Brin, co-fondateur et président de la technologie de Google. L’archive Usenet de Google, appelée Google Groups, est sortie de la version bêta aujourd’hui.
Par ailleurs, Google a discrètement testé une fonctionnalité qui inclut des liens vers des articles d’actualité pertinents avec certains types de requêtes. Lors du test de ce nouveau service, il a été reçu avec beaucoup d’enthousiasme », a déclaré David Krane, directeur de la communication d’entreprise de Google.
Les liens d’actualités, lorsqu’ils sont trouvés, sont renvoyés en haut d’une page de résultats. Toutes les requêtes ne provoquent pas l’affichage de liens d’actualités. Nous essayons d’améliorer la couverture tout en ne diminuant pas la pertinence », a déclaré HÖlzle. Nous réduisons également le temps entre le moment où les nouvelles arrivent et nous les avons. »
HÖlzle a déclaré que le robot d’exploration de Google est adaptatif et peut réagir rapidement aux dernières nouvelles, le rendant disponible sur Google en aussi peu que 15 minutes après la publication d’une histoire.
Alors que HÖlzle a refusé de fournir des détails sur les sources d’information que Google explore, il a déclaré qu’il s’agissait de centaines, voire de milliers de sites. La plupart des sources sont identifiées automatiquement. S’il ressemble même à distance à un site d’actualités, il devrait faire partie de la recherche », a déclaré HÖlzle.
Les accros aux nouvelles salivent probablement à la perspective d’une nouvelle ressource de recherche. Cependant, ne vous attendez pas à une recherche d’actualités spécialisée ou à un onglet « actualités » ajouté à la page d’accueil de Google de sitôt. Les liens vers des articles d’actualité, lorsqu’ils sont diffusés, seront traités comme les autres résultats de recherche.
En plus d’ajouter des nouvelles en temps opportun, Google s’efforce désormais de rafraîchir son index. Une partie de l’index est actualisée chaque jour », a déclaré HÖlzle. Alors que les sites d’actualités, qui changent fréquemment, sont des candidats évidents pour une indexation quotidienne, d’autres sites sont également indexés quotidiennement. Ils sont choisis par algorithme, pas à la main. Nous nous concentrons sur les pages identifiées comme importantes et pertinentes pour la mise à jour », a déclaré HÖlzle.
Cette semaine, c’est de l’ordre de 3 millions, mais c’est un nombre qui devrait augmenter rapidement avec le temps dans un laps de temps relativement court. HÖlzle a noté que même si 3 millions de pages sont en fait réindexées chaque jour, le robot d’exploration de Google visite beaucoup plus que cela à la recherche de changements.
Nous prévoyons d’étendre cela assez rapidement au cours des prochains mois, avec notre objectif d’avoir incontestablement l’index le plus récent sur le Web », a déclaré HÖlzle.
Bien que les annonces aient été faites aujourd’hui, il faudra un certain temps pour que les changements prennent effet dans tous les centres de données de Google. Environ 50% des centres de données de Google sont actuellement mis à jour, le reste devrait être entièrement mis à jour d’ici vendredi.