All posts by Pierre

Informaticien de profession, ferroviphile (voire ferrovipathe), père et râleur éhonté à l'occasion.

SEO : référencement et liens entrants

Mon billet d’hier sur les experts SEO a eu un succès certain (plus de 1000 visites à ce jour), principalement grâce à un grand nombre de citations sur Twitter. Suite à certains commentaires et après avoir consulté les explications données par certains experts en référencement sur leur propre site, je pense utile de compléter mes explications par quelques considérations sur le système des « liens entrants », aussi appelés « backlinks ».

Google utilise, comme évoqué hier, l’analyse du contenu d’une page pour lui associer des mots clés. Mais l’invention principale de Google, qui lui a permis une bien meilleure qualité de recherche, a été de prendre en compte également les références aux pages indexées faites depuis d’autres pages, établissant un système de pondération appelé PageRank, et ouvertement inspiré du système d’évaluation de l’influence des publications scientifiques (H-number).

Il est donc très efficace pour un site qui souhaite être mieux placé dans les résultats de recherche d’obtenir des liens entrants provenant d’autres sites.

Et c’est là que les choses commencent à se gâter. Car pour obtenir des liens, il n’y a pas des dizaines de solutions :

  • attendre qu’ils viennent spontanément d’autres responsables de sites ou de pages, grâce à la qualité du contenu ;
  • en solliciter en tant que relations de « bon voisinage » (le plus souvent en effectuant une proposition réciproque de lien : on appelle cela un échange de lien). Cette technique relève du démarchage commercial ;
  • en créer soi-même « à la main » en écrivant d’autres pages ailleurs, ou des commentaires sur des blogs comme celui-ci, des forums, etc. On commence à entrer dans la manipulation pure et simple, voire la propagande, le contenu enrobant lesdits liens ayant toutes les chances de n’avoir aucun intérêt, sinon publicitaire ;
  • en fabriquer plus ou moins automatiquement en créant des pages bidon ou en allant écrire des commentaires sur des blogs pris plus ou moins au hasard. On entre là dans les techniques de spam pur et simple. Ce blog pourtant relativement confidentiel reçoit chaque jour plusieurs dizaines de commentaires-spam, heureusement filtrés plus ou moins automatiquement. Comme son équivalent en courrier électronique, ce spam pourrit la vie des internautes.

L’expert en SEO va donc s’attacher à obtenir des liens par tout ou partie des trois dernières méthodes, suivant l’idée qu’il se fait de l’éthique. On parle de black-hat ou de white-hat (comme en sécurité informatique), comme si les choses étaient binaires, mais en la matière on devrait le plus souvent parler de tons de gris…

Parallèlement, Google, dont le succès repose largement sur la qualité de ses résultats, n’a pas envie de la voir démolie par ceux qui sauront se placer mieux que les autres indépendamment de la qualité ou de la popularité spontanée de leur contenu. Google effectue donc un sérieux travail de nettoyage de ce que chez eux aussi on appelle du spam, et n’hésite pas à descendre dans son classement les sites qui ont abusé un peu trop éhontément des méthodes « créatives » d’obtention de liens évoquées ci-dessus.

Un bon aperçu de ce que cela peut donner a été fourni hier par l’expert en référencement qui a montré son savoir-faire en établissant une page parodique pratiquement vide de contenu, mais portant quasiment le même titre que la mienne, pour la faire apparaître temporairement mieux classée dans les résultats de Google à l’aide de liens entrants obligeamment fournis par ses relations.

Facile ? Oui, comme il l’a dit lui-même, cela ne lui a pris que quelques minutes. Encore bravo à lui, et merci pour cette démonstration, qui apporte de l’eau à mon moulin en mettant en évidence la nature de la contribution à l’écosystème des experts en référencement.

Ajout : un lien très intéressant montrant les limites de PageRank et ce que l’on peut obtenir à l’extrême en SEO, avec une société aux USA qui profite des liens posés par des clients indignés pour être mieux classée et avoir encore plus de clients…

Ajout du 1er décembre 2010 : autre lien qui fait suite au précédent, qui montre que ce genre de problème ne fait pas du tout, mais alors pas du tout, rigoler Google, qui a été spectaculairement réactif sur ce coup-là. Chapeau.

Optimisation du référencement sur moteur de recherche : le SEO est-il une arnaque ?

Le dernier métier à la mode est celui de rebouteux-web, aussi appelé (expert en) SEO pour Search Engine Optimization, littéralement optimisation pour moteurs de recherche. En français on parle plutôt de référencement ; et principalement il s’agit d’être référencé sur Google, c’est à dire être bien placé dans les résultats de ce moteur, de préférence sur la première page, et idéalement en première position.

Vu la polémique provoquée par une page concernant les pratiques du SEO rédigée par Stéphane Bortzmeyer cet été, qui s’est fait violemment prendre à partie par les professionnels de la profession, j’ai souhaité effectuer une petite démonstration pour en avoir le coeur net.

La technique de base du SEO est très simple : trouver une combinaison de mots-clés qui soit à la fois en rapport avec la page à référencer, et rare (voire inexistante) dans le reste du web. Puisque Google donne lui-même dans ses résultats le nombre de pages contenant les mots-clés demandés ou des variations de ceux-ci, évaluer leur fréquence est extrêmement facile. L’utilisation de plusieurs mots-clés dans une recherche privilégie très fortement les pages qui les contiennent tous. Plus les mots clés utilisés sont rares, plus on peut limiter leur nombre. Un voire deux mots-clés très rares peuvent suffire à placer une page en première position sur Google.

C’est Google qui choisit lui-même les mots-clés pour indexer une page. Comment procède-t-il ?

  • d’abord, il utilise naturellement le texte de la page indexée.
  • ensuite, il complète par les mots trouvés dans le nom de domaine (la partie qui suit http://, jusqu’au / suivant)
  • enfin, il ajoute les mots trouvés à droite du nom de domaine, qui donnent l’adresse de la page au sein du site.

Le poids de ces différents éléments est variable, non dévoilé par Google (cela fait partie de leur sauce secrète). On peut supposer que le nom de domaine a un poids élevé, suivi par l’URL [MàJ : en fait pas tant que ça, cf les rectifications en commentaires] et le titre, les mots du contenu ayant un poids moindre, mais il existe des ajustements pour éviter que le système soit trop facilement exploitable par des spammeurs.

N’importe quelle personne rédigeant un blog apprend vite ces notions simples. Inutile d’être un « expert en SEO ».

Un court exemple valant mieux qu’un long discours, j’ai choisi quelques mots-clés pour voir si cela fonctionne. D’abord, des mots-clés liés au référencement : référencement, SEO, optimisation, arnaque, Google, moteur, recherche, web. Parmi ces mots-clés, à ce jour le plus fréquent est web (2,5 milliards d’occurrences !), le moins fréquent est moteur (66 600 occurrences seulement). Le second moins fréquent est arnaque.

Puis j’ai choisi les trois mots-clés les moins fréquents dans la liste qui précède : arnaque, optimisation, moteur pour les placer en titre de cet article. Il a fallu compléter pour que cela constitue une phrase, j’en ai profité pour utiliser d’autres mots-clés cités. Opportunément, le logiciel WordPress qui propulse ce blog utilise le texte du titre pour constituer l’URL. Rien de plus à faire de mon côté, donc.

Ensuite, j’ai choisi au hasard 3 mots dans le dictionnaire : eupatoire, contraction et dyspepsique. Ces mots sont tellement rares (notamment eupatoire) que cette page doit probablement être la seule du web (pour l’instant) à les contenir tous les trois…

Enfin, pour compléter cet essai, j’ai inventé un mot en tapant au hasard : xkvqoiikjbzrjwqdcqsd.

Vous pouvez vérifier par vous-même le classement de la page en effectuant des recherches sur des combinaisons des mots clés qui précèdent.

Tout cela, écriture de ce texte comprise, m’a pris environ 20 minutes. Évidemment, il s’agit d’un exemple simplifié, destiné à mettre en évidence les mécanismes principaux en oeuvre.

On comprend bien qu’un expert en SEO ne peut décemment pas avouer à ses clients qu’il leur facture plusieurs centaines, voire milliers d’euros, pour un travail aussi simple. Il va donc délayer la sauce avec des techniques qui, au mieux, s’apparentent plus à l’imposition des mains ou au placebo (très bien caricaturées ici), ésotériques à souhait, et au pire relèvent du spam pur et simple contre lequel Google lutte pour préserver la qualité de ses résultats. Le but est de bien montrer que le spécialiste, c’est lui, et que ses services valent le prix élevé auquel il vous les facture.

Et l’intérêt de la page, dans tout ça ? Eh bien, personne ou presque n’en parle, à part les vendeurs honnêtes de SEO, bien que cela soit le plus important au final. Cette technique étant applicable aveuglément pour être relativement bien référencé, personne ne se soucie de la qualité du contenu. Le SEO finit par devenir une fin en soi, proposée par de mauvais professionnels à de mauvais clients…

Une fois la page référencée par Google, j’ajouterai ici les mots-clés qui permettent de la faire apparaître en bonne position dans une recherche. Évidemment, ces résultats seront susceptibles de varier au fil du temps ; encore une bonne raison pour les experts en SEO de facturer leurs services de manière récurrente…

Mise à jour : voir aussi mon article complémentaire, SEO : référencement et liens entrants.

Master Classes de Ruggero Raimondi avec Don Giovanni

Un peu de culture, pour changer. Je vous le promets, ce n’est qu’accidentel et indépendant de ma volonté, c’était juste trop beau pour que je me retienne d’en parler.

J’ai été invité hier soir aux « Master Classes » de Ruggero Raimondi à la salle Gaveau.

Il s’agit d’un cours donné à de jeunes chanteurs très talentueux répétant des scènes de Don Giovanni, sous les conseils du maître prodigués en direct. La particularité de l’expérience est qu’elle est réalisée devant le public, c’est ce qui la rend exceptionnelle. Toute la session a été filmée par et pour une émission d’Alain Duault qui passera sur France 3 à la rentrée (douze heures de rushes prises pendant 2 jours de répétition, une heure d’émission).

Magnifique.

Je vous conseille (non, je vous ordonne) de surveiller le passage de l’émission. Pas la peine d’être un grand fan d’opéra, ni d’être expert en chant ou en musique classique, pour apprécier. Il suffit d’aimer le chant, la musique (soigner la sortie son de la télévision, fermer les écoutilles pour ne pas être dérangé), et le théatre… et de se laisser porter par la magie. Placement des acteurs, pauses dans le chant, rythme, gestes, sentiments… la scène, partie de rien, est façonnée et prend vie en quelques minutes sous nos yeux. C’est captivant. C’est aussi une superbe initiation à l’opéra.

Pour les amis des comédies musicales du théatre anglais de l’ENST, ça n’a absolument rien à voir et pourtant c’est exactement la même chose.

Pour ceux qui auraient voulu y assister sur place : trop tard malheureusement… mais surveillez la programmation future de la salle Gaveau, un futur cours est envisagé sur La Traviata.

Spam téléphonique

Appel « numéro inconnu ».

– bonjour monsieur, ici « Virginie Latour », je vous appelle de la part de votre conseillère Mme Truc de la banque Bidule pour blablabla réserve de crédit blabla…
– je ne souhaite pas être dérangé par des sollicitations commerciales téléphoniques émanant de centres d’appel, je suis sur la liste orange, je vous remercie d’en faire part à ma banque.

(2 secondes de pause, le temps de trouver la bonne réplique dans son script)

mais je vous appelle de l’agence, monsieur.

Mais oui, on y croit.

Ce n’est pas la première fois qu’une opératrice de centre d’appel essaie de m’expliquer qu’elle n’est pas une opératrice de centre d’appel (la dernière fois c’était peu avant Noël, le « standard » de l’Institut Curie qui me sollicitait pour un don). Comme quoi je ne dois pas être le seul à en avoir marre, c’est peut-être bon signe.

Le seul vrai secret de la mayonnaise

On a pu lire beaucoup de choses et beaucoup de bêtises sur la façon de réussir la mayonnaise. Pourtant, il n’y a qu’une seule chose à savoir. Pas deux, une :

Il faut démarrer avec une quantité d’huile aussi réduite que possible, 1/2 cuillérée à café par exemple.

Plus il y a d’huile au début, plus il faut battre fort pour obtenir l’émulsion.

Ce n’est tout de même pas compliqué.

Le quart d’heure d’anonymat

Du quart d’heure de célébrité « inventé » par Andy Warhol en 1968, on arrive maintenant, avec Internet et les réseaux sociaux au quart d’heure d’anonymat suggéré par Jean-Marc Manach. Un article qui résume bien la question telle qu’elle se pose aujourd’hui, avec la nécessité pour chacun de devenir son propre « dircom » et de s’auto-aseptiser.

Extraits :

Comme le souligne danah boyd, chercheuse ès médias sociaux, “la vie privée n’est pas une technologie binaire que l’on peut allumer ou éteindre” :

“La vie privée renvoie au fait de pouvoir contrôler la situation, de pouvoir contrôler quelle information va où, et d’avoir la possibilité d’en réajuster le flux de manière appropriée lorsque l’information déborde ou va trop loin. Les gens se préoccupent de leur vie privée parce qu’ils ont peur d’en perdre le contrôle.”

[…]

Le problème, c’est que le statut de “personnalité publique“, après avoir longtemps été réservé à un nombre restreint de privilégiés, est aujourd’hui accessible à tout un chacun, en quelques clics. Or, s’inquiète danah boyd, “les conséquences sociales, considérables, de ce changement de paradigme ne seront jamais assumées par les geeks de la Silicon Valley qui en sont responsables” :

“Certains d’entre eux voudraient forcer tout le monde à accepter ce changement culturel où la vie publique serait la nouvelle norme sociale. Je ne pense pas que ce soit très raisonnable, et ne pense pas non plus que c’est ce que réclament les gens.

Ce n’est pas parce que certains ont compris qu’ils pouvaient gagner quelque chose à s’exposer que tout le monde en a envie. Et ça ne veut pas dire, non plus, que la “vie privée” n’a plus de valeur. Il faut leur donner la possibilité de se protéger, et de faire face aux conséquences que cela entraînera.”

I’m sorry Dave, I’m afraid I can’t do that

Suite à la débacle Buzz, cela fait plusieurs jours que je me demande le sort que je dois réserver aux différents comptes que j’ai chez Google, tous liés au même compte Gmail. Voici où j’en suis à ce jour :

  • un compte Gmail/Gtalk -> conservé (je m’en sers principalement pour Gtalk)
  • un compte Buzz -> détruit
  • un compte Orkut -> informations personnelles nettoyées au maximum, permissions fermées au maximum, ne reste que 2 photos et la liste d’amis
  • un compte Reader -> vidé, réglages disponibles fermés
  • un compte Analytics -> détruit
  • un compte Webmaster Tools -> en cours de nettoyage, à migrer
  • un compte Wave -> préservé pour l’instant
  • un compte App Engine -> préservé pour l’instant
  • un compte Calendar -> probablement vide, à vérifier de près
  • un compte Docs -> non vide, à vérifier de près
  • un compte Contacts (synchronisé depuis mon téléphone Android) -> à vider à l’occasion, dès que j’aurai trouvé une autre solution ; il existe des applications Android pour cela.
  • un compte Picasa -> vérifié vide
  • un compte iGoogle -> théoriquement vide, à vérifier
  • un compte Web History -> désactivé
  • un compte Maps -> préservé pour l’instant, à vérifier de près
  • un compte Sites -> vidé mais à vérifier de près

Où l’on s’aperçoit à quel point la loi Informatique et Libertés, qui interdit le croisement de fichiers, était visionnaire… dès 1977.

J’ai l’impression d’être l’astronaute Dave dans la scène de 2001, Odyssée de l’espace, qui démonte l’ordinateur HAL, bloc de mémoire par bloc de mémoire, après que celui-ci ait tenté de le laisser périr dans l’espace pour le bien de l’humanité.

Tout cet inventaire est facile grâce au tableau de bord Google. Merci, Google.

L’étape numéro 2, très importante, va consister à séparer les comptes subsistants en créant autant de comptes Gmail distincts et en y migrant les données, afin d’éviter que Google relie entre eux des comptes que je ne souhaite pas voir reliés.

Cela comprendra donc au minimum :

  • un nouveau compte pour Webmaster Tools
  • un nouveau compte pour Docs
  • ultérieurement, éventuellement, de nouveaux comptes pour Maps et Wave

En revanche je vais rencontrer un gros problème pour ce qui concerne les comptes liés à Android (Gmail, Calendar, Maps, Contacts) : je ne crois pas qu’Android me laisse gérer cela sur plusieurs comptes Google séparés. Le cas échéant, je viderai purement et simplement les comptes qui continuent à me poser problème.

Je sais que tu fais tout cela pour me simplifier la vie, GoogHAL, mais j’aime avoir une vie compliquée en décidant moi-même des choses qui ne concernent que moi.

Mise à jour : création d’un nouveau compte Gmail… incroyable, même après avoir explicitement refusé Buzz (en cliquant sur le petit lien bien caché à côté du gros bouton “Essayer Buzz”), Buzz apparaît dans le nouveau compte, il faut le détruire explicitement en confirmant 2 fois… on dirait le sparadrap du capitaine Haddock dans Vol 714 pour Sydney.

Chauffeur, si t’es champion

Pour cause de pleaserobme.com, je n’ai pas l’habitude de parler ici de mes absences avant mon retour 🙂

De retour de Toulouse par TGV ce soir.

Vues les perturbations du matin sur le réseau ouest dues à la tempête de la nuit, je passe le début de l’après-midi sur gares-en-mouvement.com pour scruter les tableaux d’arrivées et départs des gares de Bordeaux, Toulouse et Paris-Montparnasse. À part quelques retards exceptionnels sur les trains du matin (4 h de retard sur un TGV prévu à 10h35 à Montparnasse), la situation semble quasiment revenue à la normale aux alentours de 16 heures.

Nous nous dirigeons donc vers Toulouse pour prendre notre TGV de retour, train 8580, horaire de départ théorique de Toulouse : 17h36.

17h33, aucun train ni sur le quai, ni en vue… retard inévitable, je commence à pressentir les ennuis. Effectivement, si le creux de l’après-midi a pu être assuré sans problème avec les rames disponibles, on dirait que pour la pointe du dimanche soir, le plan de circulation est encore perturbé par les rames en retard sur tout le réseau ouest…

Continue reading Chauffeur, si t’es champion

L’OPA de Google Buzz sur nos données personnelles

Les problèmes de Google Buzz ? Oubliés, mieux que ça : ils n’ont jamais existé, ce sont les utilisateurs qui avaient mal compris. La plainte EPIC/FTC ? « On adore discuter avec les associations ». Le mélange vie privée – vie professionnelle ? On n’en parle même pas, de toute façon Google a décrété que les deux sphères allaient fusionner, puisqu’on vous le dit.

Le concierge de Buzz a annoncé ce jour quelques petits trucs à connaître, juste histoire de faire bien comprendre aux naïfs que la vie vue par Google reprend ses droits.

Chapeau. C’est du grand art ; à ce niveau ce n’est plus du noyage de poisson, c’est de l’atomisation de cachalot, catégorie champion olympique.