Archive for the ‘Weberies 2.0’ Category

Petite expérience de DNS et de Twitter avec wikileaks

Friday, December 3rd, 2010

On a tout à fait le droit de ne pas partager à 100 % les idées et les procédés de Wikileaks, actuellement sur le devant de l’actualité, et certaines de ces critiques sont légitimes. Mais, a contrario, certains des procédés utilisés pour les faire taire ont un petit parfum qui, à titre personnel, me dérange.

L’expérience du jour : wikileaks.org ayant vu son DNS coupé par son hébergeur (problèmes d’attaques, officiellement), les discussions de ce matin sur Twitter consistaient à s’échanger “à la main” les adresses IP des miroirs… pas très pratique. Cette coupure de DNS fait suite à un déplacement du site de chez Amazon, aux USA, vers OVH, un hébergeur français.

Et puis j’ai fait une proposition toute bête qui a bien décollé et j’ai créé wikileaks.eu.org pour accomplir ma part, merci à tous ceux qui ont suivi et qui ont été ajoutés dans cete liste plus générale (section “miroirs DNS”).

Jean-Michel Planche ayant pris la peine de faire un résumé du contexte, je ne vais pas le paraphraser, allez voir son billet.

Voir aussi la lettre de mission d’Éric Besson (à Pascal Faure du CGIET) divulguée par LePost, qui vaut franchement le déplacement. Pour résumer, Éric Besson cherche un moyen d’expulser le site de France.

Un autre billet général chez Authueil sur la censure en général et celle de Wikileaks en particulier résume bien la question.

Et un article d’Écrans (Libération) résume bien la situation à l’exception d’une erreur : FDN n’héberge pas un miroir de Wikileaks, wikileaks.fdn.fr est juste un renvoi DNS suivant la méthode exposée ci-dessus.

Désolé pour ce billet un peu décousu mis à jour au fur et à mesure…

Mise à jour 18h45 : c’est maintenant le nom wikileaks.ch actif depuis ce matin qui est en carafe…

Mise à jour 4 décembre 2h35 : une liste plus complète chez Bluetouff.

SEO : référencement et liens entrants

Monday, November 22nd, 2010

Mon billet d’hier sur les experts SEO a eu un succès certain (plus de 1000 visites à ce jour), principalement grâce à un grand nombre de citations sur Twitter. Suite à certains commentaires et après avoir consulté les explications données par certains experts en référencement sur leur propre site, je pense utile de compléter mes explications par quelques considérations sur le système des « liens entrants », aussi appelés « backlinks ».

Google utilise, comme évoqué hier, l’analyse du contenu d’une page pour lui associer des mots clés. Mais l’invention principale de Google, qui lui a permis une bien meilleure qualité de recherche, a été de prendre en compte également les références aux pages indexées faites depuis d’autres pages, établissant un système de pondération appelé PageRank, et ouvertement inspiré du système d’évaluation de l’influence des publications scientifiques (H-number).

Il est donc très efficace pour un site qui souhaite être mieux placé dans les résultats de recherche d’obtenir des liens entrants provenant d’autres sites.

Et c’est là que les choses commencent à se gâter. Car pour obtenir des liens, il n’y a pas des dizaines de solutions :

  • attendre qu’ils viennent spontanément d’autres responsables de sites ou de pages, grâce à la qualité du contenu ;
  • en solliciter en tant que relations de « bon voisinage » (le plus souvent en effectuant une proposition réciproque de lien : on appelle cela un échange de lien). Cette technique relève du démarchage commercial ;
  • en créer soi-même « à la main » en écrivant d’autres pages ailleurs, ou des commentaires sur des blogs comme celui-ci, des forums, etc. On commence à entrer dans la manipulation pure et simple, voire la propagande, le contenu enrobant lesdits liens ayant toutes les chances de n’avoir aucun intérêt, sinon publicitaire ;
  • en fabriquer plus ou moins automatiquement en créant des pages bidon ou en allant écrire des commentaires sur des blogs pris plus ou moins au hasard. On entre là dans les techniques de spam pur et simple. Ce blog pourtant relativement confidentiel reçoit chaque jour plusieurs dizaines de commentaires-spam, heureusement filtrés plus ou moins automatiquement. Comme son équivalent en courrier électronique, ce spam pourrit la vie des internautes.

L’expert en SEO va donc s’attacher à obtenir des liens par tout ou partie des trois dernières méthodes, suivant l’idée qu’il se fait de l’éthique. On parle de black-hat ou de white-hat (comme en sécurité informatique), comme si les choses étaient binaires, mais en la matière on devrait le plus souvent parler de tons de gris…

Parallèlement, Google, dont le succès repose largement sur la qualité de ses résultats, n’a pas envie de la voir démolie par ceux qui sauront se placer mieux que les autres indépendamment de la qualité ou de la popularité spontanée de leur contenu. Google effectue donc un sérieux travail de nettoyage de ce que chez eux aussi on appelle du spam, et n’hésite pas à descendre dans son classement les sites qui ont abusé un peu trop éhontément des méthodes « créatives » d’obtention de liens évoquées ci-dessus.

Un bon aperçu de ce que cela peut donner a été fourni hier par l’expert en référencement qui a montré son savoir-faire en établissant une page parodique pratiquement vide de contenu, mais portant quasiment le même titre que la mienne, pour la faire apparaître temporairement mieux classée dans les résultats de Google à l’aide de liens entrants obligeamment fournis par ses relations.

Facile ? Oui, comme il l’a dit lui-même, cela ne lui a pris que quelques minutes. Encore bravo à lui, et merci pour cette démonstration, qui apporte de l’eau à mon moulin en mettant en évidence la nature de la contribution à l’écosystème des experts en référencement.

Ajout : un lien très intéressant montrant les limites de PageRank et ce que l’on peut obtenir à l’extrême en SEO, avec une société aux USA qui profite des liens posés par des clients indignés pour être mieux classée et avoir encore plus de clients…

Ajout du 1er décembre 2010 : autre lien qui fait suite au précédent, qui montre que ce genre de problème ne fait pas du tout, mais alors pas du tout, rigoler Google, qui a été spectaculairement réactif sur ce coup-là. Chapeau.

Optimisation du référencement sur moteur de recherche : le SEO est-il une arnaque ?

Sunday, November 21st, 2010

Le dernier métier à la mode est celui de rebouteux-web, aussi appelé (expert en) SEO pour Search Engine Optimization, littéralement optimisation pour moteurs de recherche. En français on parle plutôt de référencement ; et principalement il s’agit d’être référencé sur Google, c’est à dire être bien placé dans les résultats de ce moteur, de préférence sur la première page, et idéalement en première position.

Vu la polémique provoquée par une page concernant les pratiques du SEO rédigée par Stéphane Bortzmeyer cet été, qui s’est fait violemment prendre à partie par les professionnels de la profession, j’ai souhaité effectuer une petite démonstration pour en avoir le coeur net.

La technique de base du SEO est très simple : trouver une combinaison de mots-clés qui soit à la fois en rapport avec la page à référencer, et rare (voire inexistante) dans le reste du web. Puisque Google donne lui-même dans ses résultats le nombre de pages contenant les mots-clés demandés ou des variations de ceux-ci, évaluer leur fréquence est extrêmement facile. L’utilisation de plusieurs mots-clés dans une recherche privilégie très fortement les pages qui les contiennent tous. Plus les mots clés utilisés sont rares, plus on peut limiter leur nombre. Un voire deux mots-clés très rares peuvent suffire à placer une page en première position sur Google.

C’est Google qui choisit lui-même les mots-clés pour indexer une page. Comment procède-t-il ?

  • d’abord, il utilise naturellement le texte de la page indexée.
  • ensuite, il complète par les mots trouvés dans le nom de domaine (la partie qui suit http://, jusqu’au / suivant)
  • enfin, il ajoute les mots trouvés à droite du nom de domaine, qui donnent l’adresse de la page au sein du site.

Le poids de ces différents éléments est variable, non dévoilé par Google (cela fait partie de leur sauce secrète). On peut supposer que le nom de domaine a un poids élevé, suivi par l’URL [MàJ : en fait pas tant que ça, cf les rectifications en commentaires] et le titre, les mots du contenu ayant un poids moindre, mais il existe des ajustements pour éviter que le système soit trop facilement exploitable par des spammeurs.

N’importe quelle personne rédigeant un blog apprend vite ces notions simples. Inutile d’être un « expert en SEO ».

Un court exemple valant mieux qu’un long discours, j’ai choisi quelques mots-clés pour voir si cela fonctionne. D’abord, des mots-clés liés au référencement : référencement, SEO, optimisation, arnaque, Google, moteur, recherche, web. Parmi ces mots-clés, à ce jour le plus fréquent est web (2,5 milliards d’occurrences !), le moins fréquent est moteur (66 600 occurrences seulement). Le second moins fréquent est arnaque.

Puis j’ai choisi les trois mots-clés les moins fréquents dans la liste qui précède : arnaque, optimisation, moteur pour les placer en titre de cet article. Il a fallu compléter pour que cela constitue une phrase, j’en ai profité pour utiliser d’autres mots-clés cités. Opportunément, le logiciel WordPress qui propulse ce blog utilise le texte du titre pour constituer l’URL. Rien de plus à faire de mon côté, donc.

Ensuite, j’ai choisi au hasard 3 mots dans le dictionnaire : eupatoire, contraction et dyspepsique. Ces mots sont tellement rares (notamment eupatoire) que cette page doit probablement être la seule du web (pour l’instant) à les contenir tous les trois…

Enfin, pour compléter cet essai, j’ai inventé un mot en tapant au hasard : xkvqoiikjbzrjwqdcqsd.

Vous pouvez vérifier par vous-même le classement de la page en effectuant des recherches sur des combinaisons des mots clés qui précèdent.

Tout cela, écriture de ce texte comprise, m’a pris environ 20 minutes. Évidemment, il s’agit d’un exemple simplifié, destiné à mettre en évidence les mécanismes principaux en oeuvre.

On comprend bien qu’un expert en SEO ne peut décemment pas avouer à ses clients qu’il leur facture plusieurs centaines, voire milliers d’euros, pour un travail aussi simple. Il va donc délayer la sauce avec des techniques qui, au mieux, s’apparentent plus à l’imposition des mains ou au placebo (très bien caricaturées ici), ésotériques à souhait, et au pire relèvent du spam pur et simple contre lequel Google lutte pour préserver la qualité de ses résultats. Le but est de bien montrer que le spécialiste, c’est lui, et que ses services valent le prix élevé auquel il vous les facture.

Et l’intérêt de la page, dans tout ça ? Eh bien, personne ou presque n’en parle, à part les vendeurs honnêtes de SEO, bien que cela soit le plus important au final. Cette technique étant applicable aveuglément pour être relativement bien référencé, personne ne se soucie de la qualité du contenu. Le SEO finit par devenir une fin en soi, proposée par de mauvais professionnels à de mauvais clients…

Une fois la page référencée par Google, j’ajouterai ici les mots-clés qui permettent de la faire apparaître en bonne position dans une recherche. Évidemment, ces résultats seront susceptibles de varier au fil du temps ; encore une bonne raison pour les experts en SEO de facturer leurs services de manière récurrente…

Mise à jour : voir aussi mon article complémentaire, SEO : référencement et liens entrants.

Le quart d’heure d’anonymat

Tuesday, March 9th, 2010

Du quart d’heure de célébrité « inventé » par Andy Warhol en 1968, on arrive maintenant, avec Internet et les réseaux sociaux au quart d’heure d’anonymat suggéré par Jean-Marc Manach. Un article qui résume bien la question telle qu’elle se pose aujourd’hui, avec la nécessité pour chacun de devenir son propre « dircom » et de s’auto-aseptiser.

Extraits :

Comme le souligne danah boyd, chercheuse ès médias sociaux, “la vie privée n’est pas une technologie binaire que l’on peut allumer ou éteindre” :

“La vie privée renvoie au fait de pouvoir contrôler la situation, de pouvoir contrôler quelle information va où, et d’avoir la possibilité d’en réajuster le flux de manière appropriée lorsque l’information déborde ou va trop loin. Les gens se préoccupent de leur vie privée parce qu’ils ont peur d’en perdre le contrôle.”

[...]

Le problème, c’est que le statut de “personnalité publique“, après avoir longtemps été réservé à un nombre restreint de privilégiés, est aujourd’hui accessible à tout un chacun, en quelques clics. Or, s’inquiète danah boyd, “les conséquences sociales, considérables, de ce changement de paradigme ne seront jamais assumées par les geeks de la Silicon Valley qui en sont responsables” :

“Certains d’entre eux voudraient forcer tout le monde à accepter ce changement culturel où la vie publique serait la nouvelle norme sociale. Je ne pense pas que ce soit très raisonnable, et ne pense pas non plus que c’est ce que réclament les gens.

Ce n’est pas parce que certains ont compris qu’ils pouvaient gagner quelque chose à s’exposer que tout le monde en a envie. Et ça ne veut pas dire, non plus, que la “vie privée” n’a plus de valeur. Il faut leur donner la possibilité de se protéger, et de faire face aux conséquences que cela entraînera.”

I’m sorry Dave, I’m afraid I can’t do that

Monday, March 1st, 2010

Suite à la débacle Buzz, cela fait plusieurs jours que je me demande le sort que je dois réserver aux différents comptes que j’ai chez Google, tous liés au même compte Gmail. Voici où j’en suis à ce jour :

  • un compte Gmail/Gtalk -> conservé (je m’en sers principalement pour Gtalk)
  • un compte Buzz -> détruit
  • un compte Orkut -> informations personnelles nettoyées au maximum, permissions fermées au maximum, ne reste que 2 photos et la liste d’amis
  • un compte Reader -> vidé, réglages disponibles fermés
  • un compte Analytics -> détruit
  • un compte Webmaster Tools -> en cours de nettoyage, à migrer
  • un compte Wave -> préservé pour l’instant
  • un compte App Engine -> préservé pour l’instant
  • un compte Calendar -> probablement vide, à vérifier de près
  • un compte Docs -> non vide, à vérifier de près
  • un compte Contacts (synchronisé depuis mon téléphone Android) -> à vider à l’occasion, dès que j’aurai trouvé une autre solution ; il existe des applications Android pour cela.
  • un compte Picasa -> vérifié vide
  • un compte iGoogle -> théoriquement vide, à vérifier
  • un compte Web History -> désactivé
  • un compte Maps -> préservé pour l’instant, à vérifier de près
  • un compte Sites -> vidé mais à vérifier de près

Où l’on s’aperçoit à quel point la loi Informatique et Libertés, qui interdit le croisement de fichiers, était visionnaire… dès 1977.

J’ai l’impression d’être l’astronaute Dave dans la scène de 2001, Odyssée de l’espace, qui démonte l’ordinateur HAL, bloc de mémoire par bloc de mémoire, après que celui-ci ait tenté de le laisser périr dans l’espace pour le bien de l’humanité.

Tout cet inventaire est facile grâce au tableau de bord Google. Merci, Google.

L’étape numéro 2, très importante, va consister à séparer les comptes subsistants en créant autant de comptes Gmail distincts et en y migrant les données, afin d’éviter que Google relie entre eux des comptes que je ne souhaite pas voir reliés.

Cela comprendra donc au minimum :

  • un nouveau compte pour Webmaster Tools
  • un nouveau compte pour Docs
  • ultérieurement, éventuellement, de nouveaux comptes pour Maps et Wave

En revanche je vais rencontrer un gros problème pour ce qui concerne les comptes liés à Android (Gmail, Calendar, Maps, Contacts) : je ne crois pas qu’Android me laisse gérer cela sur plusieurs comptes Google séparés. Le cas échéant, je viderai purement et simplement les comptes qui continuent à me poser problème.

Je sais que tu fais tout cela pour me simplifier la vie, GoogHAL, mais j’aime avoir une vie compliquée en décidant moi-même des choses qui ne concernent que moi.

Mise à jour : création d’un nouveau compte Gmail… incroyable, même après avoir explicitement refusé Buzz (en cliquant sur le petit lien bien caché à côté du gros bouton “Essayer Buzz”), Buzz apparaît dans le nouveau compte, il faut le détruire explicitement en confirmant 2 fois… on dirait le sparadrap du capitaine Haddock dans Vol 714 pour Sydney.

L’OPA de Google Buzz sur nos données personnelles

Saturday, February 20th, 2010

Les problèmes de Google Buzz ? Oubliés, mieux que ça : ils n’ont jamais existé, ce sont les utilisateurs qui avaient mal compris. La plainte EPIC/FTC ? « On adore discuter avec les associations ». Le mélange vie privée – vie professionnelle ? On n’en parle même pas, de toute façon Google a décrété que les deux sphères allaient fusionner, puisqu’on vous le dit.

Le concierge de Buzz a annoncé ce jour quelques petits trucs à connaître, juste histoire de faire bien comprendre aux naïfs que la vie vue par Google reprend ses droits.

Chapeau. C’est du grand art ; à ce niveau ce n’est plus du noyage de poisson, c’est de l’atomisation de cachalot, catégorie champion olympique.

Buzz: EPIC files a complaint

Wednesday, February 17th, 2010

EPIC Urges Federal Trade Commission to Investigate Google Buzz.

EPIC fail“, as Arstechnica nicely puts it.

PDF of the detailed complaint, a must-read IMHO, which is the best summary to date of what the fuss is all about, including point by point discussion of the opt-out issues.

[followup article to Google Buzz privacy debacle, Let the second Buzz effect begin and Google Buzz start-up requesters update]

If you type Google into Google…

Monday, February 15th, 2010

If you type “google buzz“, “google earth” or “google maps” (and some others, probably) into Google search, you get a live, scrolling search entry in the middle of your results page, including twitter feeds.

Why not, but feels a bit weird, and you have to be fast if you want to catch one of the scrolling links. That’s not for grandma.

Google Buzz start-up requesters update

Sunday, February 14th, 2010

Apparently the Google Buzz team is very hard at work (on a week-end break!) to fix some of the more blatant problems with Buzz initialization, see their post titled A new Buzz start-up experience based on your feedback; including a nice apology at the end regarding the panic.

My gut feeling is that there are still way too many opt-out things. List visibility, for one: opt-out still does not feel quite right to me; it is too easy for people to not care at first and regret it only when it’s too late. The obvious fact that leaked information can’t be unleaked should be taken into account.

Also, one of the core problems, clearly separating contacts vs friends, apparently remains. I’ll need to retry Buzz someday to see how it feels after this update.

Update: see also Google Buzz – anatomy of a slow motion train wreck, a very good analysis of what happened and things to expect. I share the feeling about the shift in privacy habits that Google (or should I say, some people at Google, but from where I stand that is irrelevant) are trying to shove down our throats.

Update: the mainstream press is getting angry, too. Furious John Naughton article in The Guardian, quoting:

In the real world, the devil is in the details. In cyberspace, it’s in the defaults. And the default settings in Buzz are so crass that one cannot imagine they are the product of corporate carelessness.

The Google boys are smart and know exactly what they’re doing. They’ve been enviously watching the stupendous growth of Twitter and Facebook and wondering how Google can cut them off at the knees before they become really unstoppable – which brings us back to Microsoft.

Update: another article, Buzz: Google Needs Better ‘People Skills’: (this one I find slightly unfair, albeit not totally undeserved)

Given the option, Google’s choice for default settings were what benefited Google the most, not what best protected its consumers.[...]

Privacy, however, impacts everything Google does. That the company could get Buzz privacy so terribly wrong is reason for serious concern.

Google needs to learn when to put people first and technology second.pdate:

(more…)

Let the second Buzz effect begin

Saturday, February 13th, 2010

Ok, so after Google auto-subscribed about 10 million people to Buzz a few days ago to get traction, sit down and watch real-time mass unsubscription of upset people, including some vocal ones.