Il a beau exister depuis plus de 20 ans maintenant, le moteur de recherche Google reste énigmatique pour la plupart de ses utilitateurs. L’interface d’utilisation, d’une simplicité extrême, composée d’un simple champ textuel et d’un bouton qui sert à lancer une recherche, est l’arbre qui cache la forêt. En effet, derrière ce minimalisme de façade se cache l’un des secrets technologiques les mieux gardés et les plus sujets à spéculation de ces 25 dernières années.
En tant qu’experts du web, nous avons connu moulte histoires en lien avec ce moteur de recherche, et nos clients qui essaient d’accroître leur visibilité coûte que coûte. Il nous semble important de clarifier ce qu’est Google (en tout cas son produit Search, c’est à dire le moteur de recherche), la société éponyme étant l’un des géants mondiaux qui domine si effrontément le marché technologique.
Comment Google fait-il pour répondre de façon si rapide et précise à n’importe quelle demande ? Sans entrer dans le secret des Dieux de l’informatique, il faut au moins saisir les bases pour comprendre le fonctionnement global de ce petit bijou d’ingénierie qui a eu tant d’impact sur notre vie quotidienne.
Les explications données ici sont purement théoriques et n’ont pas été scrupuleusement vérifiées et validées par l’entreprise Google. Il s’agit plus d’une vue de l’esprit (basée sur notre expérience) permettant de comprendre le fonctionnement général du moteur de recherche plutôt que d’une documentation technique, la complexité et l’échelle des concepts expliqués ne permettant pas de rentrer dans tous les détails nécessaires à la mise en oeuvre d’un tel logiciel. Le but est ici de schématiser, simplifier et expliquer pour vulgariser, les experts nous excuserons les inévitables imprécisions relatées.
Architecture globale
1. Google Bot ( ou comment parcourir tout le web )
Ce (ro)bot est un programme qui a été conçu pour explorer le World Wide Web, et suivre tous les liens qu’il découvre lors de son exploration. Pour simplifier, il fait le même boulot qu’un navigateur web (browser) mais extrait le contenu textuel (et visuel) de toutes les pages web qu’il arpente pour faire une copie la plus complète possible du web et faire grossir la base de données.
Les propriétaires de sites (ici www.monsite.com) peuvent donner certaines informations à Google Bot au travers de 2 fichiers (URL) dont le nom est standardisé :
- robots.txt : il s’agit d’instructions spécifiques pour tous les crawlers (et pas seulement Google Bot) pour donner des règles générales sur la façon d’explorer le site et surtout exclure certaines parties du site de l’index Google (la base de données qui recense tout le contenu du web).
- sitemap.xml : c’est la liste de toutes les URLs du site, avec la date de leur dernière mise à jour.
Attention, Google Bot ne se limite pas aux instructions de ces 2 fichiers, et fait un peu ce qu’il veut : il peut inclure des pages indiquées comme non-référençables, et trouver des URLs qui ne sont pas dans le sitemap, car avant tout il scanne toutes les pages et suit tous les liens qu’il trouve.
2. Google Index ( ou comment stocker les informations )
Toutes les informations récupérées par Google Bot sont minutieusement stockées et organisées dans une base de données, dont la taille dépasse l’entendement humain. Ici sont enregistrées plusieurs milliards de pages web et la taille de cette immense structure dépasse les 100 millions de Gigaoctets. Inutile de vous dire qu’il ne suffit pas d’un petit disque dur ou d’un seul gros ordinateur pour gérer ça, c’est un modèle de données partagé sur beaucoup de machines différentes disposant toutes de plusieurs copies de différentes parties d’information, réparties physiquement un peu partout sur la planète.
3. Tri et optimisation des données ( ou comment rendre tout cela utilisable )
Afin de permettre une réponse rapide et pertinente à n’importe quelle demande, Google trie et organise toutes les informations stockées dans l’index, sur base des mots clés qu’elles contiennent, et du contenu et du sens de tout cela.
C’est ici que réside une grosse partie du mystère technologique et des spéculations qui alimentent les conversations de tous les “experts SEO” depuis plus de 20 ans : comment Google fait-il pour choisir de présenter telle page plutôt qu’une autre pour une requête donnée ? Il faut accepter de rester humble devant le pouvoir de l’algorithme, et que personne ne pourra jamais ni donner la “recette miracle” qui propulsera une page web en tête des résultats de recherche, et encore moins garantir un résultat. C’est un secret, et ça le restera.
Malgré toute cette frustration face à l’inconnu, le bon sens et quelques indices donnés par l’entreprise elle-même peuvent aider à améliorer le positionnement (ranking) d’une page. Ces conseils sont à peu près les même depuis 20 ans, n’en déplaise aux consultants payés rubis sur l’ongle pour leur “expertise” souvent noyée dans une brume aussi inutile qu’insipide :
- Le contenu est roi : le job de Google Search c’est de répondre aux questions en proposant le contenu le plus pertinent et le plus adapté à la demande reçue. Vouloir lui faire prendre des vessies pour des lanternes et essayer de le gruger avec des informations peu utiles et déjà expliquées 1000 fois ailleurs ne sert qu’à enrichir des personnes peu scrupuleuses manquant de sérieux.
- La façon dont l’information est structurée est importante : Les titres, les paragraphes, les liens, les boutons, les menus, le texte alternatif pour les contenus visuels, le nom des pages et la structure des URLs sont des facteurs importants pour que non seulement Google Bot organise et traite votre information, mais aussi pour que les visiteurs s’y retrouvent et apprécient leur expérience utilisateur (UX).
- Les pages doivent s’afficher rapidement et efficacement : au-delà de 2 secondes, la plupart des visiteurs rebroussent chemin, Google ne prendra donc même pas la peine de leur présenter les pages qui ne respectent pas cette vitesse minimale.
- Les liens internes et externes : plus une page est “pointée” par d’autres pages, et plus elle est susceptible de contenir de la valeur, d’autant plus si la page source est sur un autre site que la page de destination. Si votre page est citée et dispose d’un lien à partir d’un site hyper-connu et hyper-visité, alors il y a de fortes chances qu’elle contienne des informations intéressantes, utiles et pertinentes, cela fera sans aucun doute monter le ranking de cette page.
- Corrélation avec les autres outils Google : même si cela n’est formellement indiqué nulle part, il est évident que Google Search profite de tout l’écosystème logiciel mis en place, et d’informations spécifiques liées aux visiteurs du site : localisation, centres d’intérêt, annonces publicitaires, et bien d’autres choses encore. Une personne qui recherche le mot “garage” à Liège n’obtiendra pas les mêmes résultats qu’une personne faisant la même recherche à Londres ou Tokyo. Google sait beaucoup de choses (bien plus qu’on ne le pense) sur les personnes qui font des recherches, et proposera avant tout un contenu pertinent pour cette personne. Si vous cherchez un garage et avez visité le site d’une grande marque automobile au cours des 3 derniers jours, il est plus probable que Google vous propose un garage près de chez vous de la marque qui a suscité votre intérêt, plutôt qu’un garage situé dans une obscure contrée de l’europe de l’est spécialisé dans les vieux modèles LADA (à moins bien sûr que cela vous intéresse ET que vous habitiez en Tchétchénie, mais alors comment diable êtes-vous arrivé ici ??).
4. Google Search ( ou comment être minimaliste )
Inutile ici de rentrer dans d’énormes considérations techniques, au vu du minimalisme visuel de l’interface de recherche bien connue. Le génie de l’entreprise est ici de donner une liberté totale à l’utilisateur, en lui permettant de consulter l’index Google et de formuler ses demandes en langage naturel, aidé par une suggestion automatique de complétion. Contrairement à tous ses concurrents de l’époque, Google n’a pas voulu pré-organiser et trier les informations selon des thèmes ou des catégories, mais a plutôt planché sur l’analyse du sens des questions entrées dans la petite barre de recherche. Et cela a bien fonctionné…
Malgré cette simplicité apparente, il est possible de donner plus d’indications au moteur de recherche pour éviter qu’il sur-intérprète votre demande : utiliser les guillements (” “) pour grouper les mots qui doivent rester ensemble, le moins ( – ) pour indiquer qu’un terme ne doit pas être présent, l’astérisque ( * ) pour remplacer une lettre ou un mot, les opérateur ET, OU et les parenthèses pour construire des conditions logiques classiques.
Il existe aussi une liste de mots-clés qui peuvent précéder une recherche pour les aspects un peu plus techniques : “define:” pour obtenir une définition, “filetype:” pour avoir un format de fichier particulier (par exemple PDF), “site:” pour limiter la recherche à un site précis, etc…
Conclusions
N’en déplaise à certains bonimenteurs, la technologie derrière cet outil fantastique est bien moins complexe qu’il n’y paraît quand on prend la peine de s’y intéresser de plus près (comme beaucoup de choses, finalement).
Si vous avez besoin d’accompagnement pour le SEO (Search Engine Optimisation) de votre site web n’hésitez pas à faire appel à Fast Web et à nous contacter !
Pour en savoir plus, la documentation officielle de Google vous permettra d’éviter les vendeurs de rêve : https://developers.google.com/search/docs?hl=fr