Category Archives: Weberies 2.0

Sécurité des serveurs web avec TLS, petite toilette d’automne 2016

Résumé pour gens très pressés : ce n’est pas si difficile que cela en a l’air.

Résumé pour gens pressés : même sans être un gourou de la cryptographie, il est possible de sécuriser son site au niveau approximatif de l’état de l’art (du moment — ce n’est jamais une tâche définitive) en s’appuyant sur des sites de recommandations réalisés par des spécialistes.

Après avoir passé quelques heures à peaufiner ma configuration, je pense utile de partager ce que j’ai appris pour dispenser autour de moi un peu de bonheur artificiel par l’entremise de la sécurité cryptographique.

L. Hirlimann (@lhirlimann) m’a récemment orienté sur un excellent site de la fondation Mozilla, observatory.mozilla.org,  qui permet de vérifier la configuration sécurité basique de votre site web, à commencer par l’aujourd’hui indispensable TLS, et mutualise également (par défaut, mais c’est débrayable) les résultats des non moins excellents :

1. TLS, les algorithmes cryptographiques

Au-delà de ses origines mathématiques, la cryptographie est une affaire de paranoïaques qui n’ont pas tous exactement le même avis sur ce qui est casher ou pas à un instant donné.  Les audits rapides réalisés par les sites qui précèdent vous en convaincront rapidement.

Ainsi, après quelques premières modifications rapides sur ma configuration TLS, SSL Labs attribuait un A+ à ce site, alors que tls.imirhil.fr l’affublait d’un catastrophique F sous prétexte que l’algorithme DES n’était pas désactivé.

Bien entendu, cela évolue aussi au fil du temps, qui fait qu’un algorithme donné va passer en quelques petites décennies à peine du statut de “sûr” à celui de “passoire”, que ce soit par l’évolution des performances brutes ou par celles de la recherche en attaques cryptographiques.

Par ailleurs, vous aurez éventuellement également le plaisir de vous faire rappeler à l’ordre par ces analyses si votre implémentation TLS comporte des trous de sécurité connus. J’ai découvert qu’il est assez facile de se faire avoir, même avec un système d’exploitation que l’on pensait à jour.

Les “suites” cryptographiques recommandées varient au fil des sites spécialistes que l’on consulte.

Voici, pour ne pas vous faire languir, celle que j’ai concoctée pour satisfaire les sites cités (!) ci-dessus, et qui est certainement sujette à commentaires et critiques (attention, c’est supposé tenir sur une ligne sans retour) :

EECDH+AESGCM:EDH+AESGCM:AES256+EECDH:ECDHE-RSA-AES128-SHA:DHE-RSA
-AES128-GCM-SHA256:AES256+EDH:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES128-GCM-S
HA256:DHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-SHA384:ECDHE-RSA-AES128-SHA256:
ECDHE-RSA-AES256-SHA:DHE-RSA-AES256-SHA256:DHE-RSA-AES128-SHA256:DHE-RSA-AES256-
SHA:DHE-RSA-AES128-SHA:AES256-GCM-SHA384:AES128-GCM-SHA256:AES256-SHA256:AES128-
SHA256:AES256-SHA:AES128-SHA:HIGH:!aNULL:!eNULL:!EXPORT:!DES:!3DES:!MD5:!PSK:!RC4

N’allez surtout pas croire que j’ai construit ni même analysé en détail ce qui précède : la liste provient à l’origine de https://www.digicert.com/ssl-support/ssl-enabling-perfect-forward-secrecy.htm dont l’objet est d’expliquer la configuration d’un serveur web pour éviter qu’un vol de clé privée permette le déchiffrement a posteriori des communications, une mesure à prendre suite aux révélations de l’affaire Snowden sur les capacités de la NSA, et suite également à l’affaire Lavabit.

J’ai simplement amendé la liste pour y ajouter !DES:!3DES: pour évacuer ce vieil algorithme des choix et passer chez tls.imirhil.fr d’un catastrophique F à un passable B.

Si comme moi vous utilisez Apache, cette liste est à placer dans la directive SSLCipherSuite.

Problème : l’incantation qui précède est difficile à comprendre, et donc à modifier, si on n’a pas lu la documentation. En particulier il ne suffit pas d’ajouter !DES pour se débarrasser également de 3DES. Ce n’est pas facile à découvrir rapidement en passant par les sites ci-dessus, qui pour éviter d’être surchargés ne permettent pas des accès trop fréquents (limite à 5 minutes au mieux).

J’ai donc découvert également l’excellente (tout le monde est excellent ici, vous l’aurez compris) commande :

openssl ciphers "la chaîne"

et son avatar plus bavard :

openssl ciphers -v "la chaîne"

qui permettent de tester la chaîne immédiatement en local pour voir ce qu’elle produit sans avoir à attendre la réponse d’un serveur situé à l’autre bout de la planète.

2. Sécurité “web” :  contenu et entêtes

Ce qui précède ne concerne que la partie TLS, c’est-à-dire la couche de chiffrement.

C’est ensuite que observatory.mozilla.org prend tout son sens, en complétant l’expertise cryptographique avec l’expertise web des auteurs de Firefox par le tableau suivant (exemple pour ce site au jour de la publication de ce billet) :mozJe ne vais pas entrer dans les détails ; chaque point correspond à des catégories particulières d’attaques plus ou moins pertinentes pour chaque site, et comme vous pouvez le voir je n’ai pas encore débloqué tous les trophées. On y trouve des recommandations sur :

  • HSTS (Host Strict Transport Security), permettant au site de s’engager vis-à-vis du navigateur sur la disponibilité de https.
  • Subresource Integrity, pour valider les contenus inclus (en particulier scripts) stockés sur des serveurs tiers ;
  • X-Content-Type-Options, pour interdire au navigateur d’interpréter n’importe quoi (par exemple une supposée image téléchargée par un attaquant) comme un script ;
  • X-Frame-Options, pour bloquer des attaques par détournement de clics (clickjacking) ;
  • les redirections diverses afin d’amener l’utilisateur à un site https même dans le cas où il ne s’y est pas dirigé lui-même initialement ;
  • etc

observatory.mozilla.org vous donne par les liens bleus (dont j’ai recopié certains ci-dessus) toutes les explications détaillées sur les possibilités et le sens de chaque option de configuration.

Sous Apache, cela se configure comme ci-dessous, à condition d’avoir chargé le module mod_headers.

Attention : les options pour mon site ne sont certainement pas exactement celles dont vous aurez besoin ; en particulier vous pouvez facilement vous tirer une petite balle dans le pied et vous retrouver avec Javascript désactivé sur certaines fonctions essentielles. Ce fut mon cas, ce qui m’a fait perdre temporairement l’éditeur Wysiwyg de WordPress, et le problème est encore potentiellement présent dans l’exemple qui suit.

Attention également aux sauts de ligne si vous recopiez.

  # HSTS 366 days
Header set Strict-Transport-Security "max-age=31622400"
# Prevent browsers from incorrectly detecting non-scripts as scripts
Header set X-Content-Type-Options: nosniff
# Block site from being framed
Header set X-Frame-Options "DENY"
# Do the same thing, but with Content Security Policy
# +Disable unsafe inline/eval, only allow loading of resources
# (images, fonts, scripts, etc.) over https (recommended)
Header set Content-Security-Policy "default-src https:; frame-ancestors 'none'"
# Block pages from loading when they detect reflected XSS attacks
Header set X-XSS-Protection "1; mode=block"

Ces recommandations permettent d’élucider le comportement souvent mystérieux des navigateurs en ce qui concerne le contenu sécurisé, dans le but de comprendre comment passer du cadenas https “avec avertissement” c0 au cadenas “vert”c1.

Je n’ai pas encore tout à fait réussi en ce qui concerne la page https://signal.eu.org/osm/, malgré la mise en œuvre de Subresource Integrity.

3. Les cookies

Pour les cookies, c’est encore différent, cela dépend de l’environnement (framework) web que vous utilisez. Concernant WordPress je n’ai pas encore trouvé si/où cela se gérait, pour Django voici ce que j’ai configuré dans le fichiers settings.py :

LANGUAGE_COOKIE_AGE=1209600
CSRF_COOKIE_HTTPONLY=True
CSRF_COOKIE_SECURE=True
SESSION_COOKIE_AGE=1209600
SESSION_COOKIE_HTTPONLY=True
SESSION_COOKIE_SECURE=True

4. One more thing

Enfin, vous pouvez aussi pour tout cela vous faire assister par un autre site proposé par la fondation Mozilla, le générateur de configuration pour serveur web, qui vous conseillera sur la configuration de l’agrafage (stapling) OCSP et certains des points qui précèdent :

https://mozilla.github.io/server-side-tls/ssl-config-generator/

 

 

Nul doute qu’il y a des précisions ou corrections à apporter à ce qui précède, si vous le jugez utile n’hésitez pas ci-dessous.

Mise à jour : @_eric_quinton me signale gentiment sur twitter ce document de l’ANSSI :  Le nouveau (juillet 2016) C’est très complet mais très technique, et cela mixe recommandations à destination des administrateurs de site comme à destination des développeurs de suites crypto, ce qui complique la lecture.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1Nb4aJWgAUAqMUCzeF2vTTDUNVNTM5ak42

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Routage ferroviaire pour raildar.fr avec Openstreetmap et OSRM

Pour fêter la nouvelle année, que je vous souhaite à toutes et tous joyeuse et heureuse, voici une petite application web que j’ai écrite récemment pour aider au débogage des trajets de raildar.fr, qui permet d’identifier plus rapidement les problèmes à corriger dans openstreetmap.org. Voir plus bas pour des précisions de fond.

Ça se révèle assez ludique (pour les amateurs de trains).

Voici l’URL temporaire “de travail” chez moi avec un exemple de trajet Londres-Amsterdam :

https://signal.eu.org/osm/?fromto=51.534377,-0.128574,52.379018,4.899988

Pour demander un trajet, on déplace simplement les deux marqueurs et le logiciel de routage se débrouille, et affiche la distance résultante.

En voici une copie d’écran (cliquer pour agrandir) :

LondresAmsterdam

Attention, ne bourrinez pas trop sur le serveur, le calcul des routes prend quelques secondes et utilise l’instance OSRM de raildar.fr.

L’application est aussi déployée sur les serveurs de @Turblog (Bruno Spiquel) dans une version un peu moins à jour.

Quelques précisions pour ceux qui ne connaissent pas : raildar.fr utilise les données SNCF de retard, ainsi que la base cartographique openstreetmap.org. openstreetmap.org est en quelque sorte le Wikipédia de la cartographie. Chacun peut y apporter des corrections. En complément, OSRM (Open Source Routing Machine) extrait les différents graphes (routiers, ferroviaires, etc) afin de calculer des trajets de toutes sortes dans le graphe.

Mon application est éhontément dérivée du code initial de raildar.fr (écrit par , basé sur leaflet et jQuery) auquel j’ai ajouté le décodage de la sortie OSRM.

 

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1CUH3vK4HsCvAmqWWdZqtHvZfU65PmDD87

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Fusion (froide) CSA-ARCEP-HADOPI, préservation des anachronismes

La dernière idée en date des lobbyistes de l’industrie du divertissement, très écoutés au ministère de la Culture, date de plusieurs mois mais fait couler beaucoup d’encre depuis la rentrée.

Il s’agit de proposer la fusion de trois éminentes “autorités administratives indépendantes” : CSA, HADOPI et ARCEP, sous prétexte d’accompagner l’évolution technologique (la déferlante Internet qui s’annonce an matière de télévision), mais en réalité dans le but d’en ralentir les effets néfastes sur les situations acquises de l’industrie du divertissement et le contrôle politique “citoyen” sur les média.

Le CSA

D’un côté le CSA (Conseil supérieur de l’audiovisuel) dont la mission consiste à garantir la liberté de communication audiovisuelle en France. Le CSA a été constitué (sous le nom de Haute Autorité de la communication audiovisuelle) en 1982, quelques années après la disparition de l’ORTF, et pour préparer l’arrivée des premières chaînes privées.

Le CSA indique avoir les responsabilités suivantes :

  • la protection des mineurs
  • le respect de l’expression pluraliste des courants d’opinion
  • l’organisation des campagnes électorales à la radio et à la télévision
  • la rigueur dans le traitement de l’information
  • l’attribution des fréquences aux opérateurs
  • le respect de la dignité de la personne humaine, la protection des consommateurs
  • « veiller à la défense et à l’illustration de la langue et de la culture françaises » sur les antennes
  • rendre les programmes de la télévision accessibles aux personnes souffrant d’un handicap auditif ou visuel
  • veiller à la représentation de la diversité de notre société dans les médias
  • contribuer aux actions en faveur de la protection de la santé
  • etc [sic]

Une autre page détaille d’autres missions, dont l’attribution des canaux de télévision hertzienne (maintenant TNT), en expliquant que “la contrepartie de cette liberté est l’institution d’une fonction de régulation, chargée d’accompagner ce mouvement et d’en prévenir les éventuelles dérives“.

Je laisse au lecteur le soin de déterminer en quoi les responsabilités qui précèdent ont, ou pas, un rapport avec la mission générale de garantie de la liberté de communication audiovisuelle.

En ce qui concerne par exemple l’organisation des campagnes électorales, on se souviendra de la dernière élection présidentielle avec les débats ubuesques sur les temps de parole comparés, ou les heures autorisées de publication de résultats estimés qui ont toujours circulé sous le manteau et aujourd’hui quasi ouvertement via Internet, les nuages IP ne s’arrêtant pas à la frontière (incidemment j’ai écrit ceci avant de voir qu’un des articles cités en bas se servait du même exemple comme argument en faveur d’une fusion, alors qu’à l’évidence ni une fusion ni une extension des pouvoirs du CSA ne changera rien à la situation, ni à ce que les média étrangers ont le droit de diffuser, ni aux personnes qu’il est possible de poursuivre).

Le CSA tire sa légitimité, ou plutôt sa capacité d’action donc son influence, de la rareté des ressources. Les canaux hertziens de télévision ou radio ne sont pas (ou plutôt n’étaient pas, mais n’anticipons pas) en nombre illimité, et leur attribution nécessite de pouvoir montrer patte blanche et une capacité à les remplir.

L’ARCEP

L’ARCEP quant à elle a pour mission la régulation des télécommunications et des postes, dont l’attribution des ressources rares que sont fréquences hertziennes et plages de numéros téléphoniques. L’ARCEP possède un rôle essentiellement technique et concurrentiel et en aucun cas ne se mêle de régulation des contenus, respectant d’ailleurs en cela le bon vieux modèle OSI d’indépendance des couches.

La HADOPI

La HADOPI, bien connue sur Internet et ici, est proposée également comme partie prenante de la fusion, et ses missions “pédagogiques” sont explicitement téléguidées par l’industrie du divertissement via le ministère de la Culture.

Les mutations de l’audiovisuel

Jusqu’à ces dernières années, les choses étaient simples.

D’un côté la télévision, média grand public aux canaux gérés depuis des décennies par une poignée de groupes bien établis, chapeautés par des autorités dont le dernir avatar en date est le CSA.

De l’autre, Internet, réseau informatique presque confidentiel par comparaison avec la télévision, et dont les capacités techniques permettaient difficilement le transport à grande échelle de contenus vidéo.

En à peine 10 ans, quatre évolutions technologiques ont tout balayé : la vidéo numérique (mpeg…), l’ADSL et le triple-play, la TNT, le P2P.

La TNT est à la fois un succès et un échec. Un succès technologique, puisqu’elle remplace haut la main la télévision analogique et augmente considérablement la capacité hertzienne (dividende numérique, permettant de libérer des fréquences pour le téléphone mobile). Mais un échec en termes de contenus (remplissage avec des séries américaines de seconde zone, difficulté à trouver des opérateurs pour les nouvelles chaînes disponibles) et d’audience, mécaniquement éparpillée sur 5 à 6 fois plus de chaînes, et concurrencée par le développement d’Internet.

La TNP (télévision numérique personnelle), avatar mobile de la TNT, et la radio numérique, sont un échec complet et ne sont pas déployées.

L’ADSL a permis l’augmentation des débits des abonnés Internet, et la diffusion de bouquets télévisés par les fournisseur d’accès. Cette évolution n’avait absolument pas été anticipée par les chaînes de télévision.

Enfin, le P2P, profitant de la vidéo numérique et de l’augmentation des débits, a fourni un moyen d’échange pratique de contenus “à la demande” ou presque, en l’absence d’offre commerciale sérieuse.

La délinéarisation

La délinéarisation, c’est la disparition de la nécessité d’être devant son poste de télévision à l’heure dite pour regarder son émission préférée. Grâce à la numérisation, aux progrès en termes de stockage et de transmission, elle a beaucoup avancé depuis ce que permettait le magnétoscope :

  • le P2P, précurseur
  • la VoD gratuite sur Internet (Youtube…)
  • la VoD payante…
  • les fonctions d’enregistreur numérique des box ADSL
  • les divers services de Replay, par les fournisseurs d’accès ou les chaînes elles-mêmes

Et ce n’est qu’un début. Là où aujourd’hui il est possible de retrouver l’émission ou l’épisode que l’on a raté la veille au soir, dans quelques années on pourra demander n’importe quel épisode, dès que les ayants-droit l’auront accepté.

La délinéarisation massive et Internet sont les grands amis des missions principales du CSA :

  1. Ils multiplient à l’infini les sources, assurant le pluralisme qui devient “naturel”
  2. Ils donnent accès à tous ceux qui le désirent à une diffusion planétaire
  3. Ils réduisent la granularité du contenu, faisant disparaître la notion de “chaîne” et rendant caduque celle de “quota”

Sur Internet le CSA ne peut donc se prévaloir d’aucune utilité sur lesdites missions.

À plus ou moins long terme on peut prédire que la délinéarisation va transférer sur Internet l’essentiel des diffusions “en boite” : tout ce qui n’est pas diffusé en direct, émissions, séries, films, etc. La diffusion télévisée garde encore temporairement son intérêt pour la diffusion à grande échelle d’émissions ou événements en direct.

Internet est en train (à 5-10 ans d’échéance) de tuer révolutionner la télévision telle que nous la connaissons, et c’est bien cela qui inquiète l’industrie du divertissement. Pour les sceptiques, voir ceci : MIPCOM : Youtube part à l’assaut de la télévision.

La télévision connectée

Parler de “télévision connectée” pour justifier une fusion CSA-ARCEP-HADOPI, c’est voir les choses par le petit bout de la lorgnette.

Le terminal utilisé n’a aucune importance, si ce n’est savoir qui en maîtrise le logiciel.

Certains brancheront leur télévision sur Internet pour des visionnages en famille, d’autres se contenteront d’une tablette ou d’un téléphone mobile, d’autres encore brancheront l’ordinateur sur la télévision.

Même d’un point de vue de politique industrielle ou protectionniste, cela fait bien longtemps que tous ces matériels électroniques ne sont plus fabriqués en Europe sinon en quantités insignifiantes.

Les Google-TV et Apple-TV ont été des flops mémorables… pour l’instant, mais l’essentiel est là pour diffuser massivement de la vidéo à la demande : les périphériques (ordinateurs, téléphones, tablettes ou téléviseurs améliorés…), l’infrastructure, l’offre commerciale (les app-stores). Seuls les catalogues laissent encore à désirer..

Qu’on ne s’y trompe pas : Google et Apple vont très prochainement être présentés comme les forces à combattre ou à taxer, justifiant protectionnisme législatif et fiscal, mais la fusion CSA-ARCEP vise la régulation des contenus sur Internet au sens large.

La situation à ce jour

On se trouve donc en présence aujourd’hui :

  • d’un CSA qui voit son pouvoir et sa légitimité s’effriter à mesure que l’audience et les contenus se déplacent de la télévision vers Internet, et qui n’a jamais franchement prouvé son indépendance par rapport au pouvoir politique ;
  • de conglomérats d’anciens média qui tirent les mêmes conclusions que le CSA, ne comprennent Intenet que comme un danger, et de plus constatent le rétrécissement progressif de leurs recettes publicitaires télévisées ;
  • d’un pouvoir politique tenté, comme toujours en France, de préserver des situations acquises au détriment de l’avenir, et éventuellement désireux d’économiser quelques postes en réduisant le nombre pléthorique d'”autorités” ;
  • d’une ARCEP qui défend une indépendance relative mais assez largement reconnue, démontrée notamment lors de l’attribution de la 4e licence de téléphonie mobile.

La proposition de fusion CSA-ARCEP, dont les premières réflexions ont été initiées sous la présidence précédente, vise donc avant tout à tenter de préserver les situations acquises, indépendamment de tout pragmatisme vis-à-vis d’usages et de technologie dont l’évolution n’a pas attendu  le législateur. Sans grande surprise, cette fusion est d’ailleurs soutenue par Bouygues (propriétaire de TF1) et Vivendi.

Sur le papier, le CSA a beaucoup à y gagner, avec une  extension théorique de ses pouvoirs, un transfert de ceux-ci sur Internet ne faisant que suivre celui des contenus. En pratique, ces moyens ont été pensés à l’ère de la télévision et sont totalement inapplicables sur Internet ; quant à ses missions officielles, elles sont remplies “par construction” sur Internet.

Pour se convaincre de l’impossibilité de gérer Internet comme la télévision, il suffit de se demander s’il semble possible de rendre Internet aussi aseptisé que la télévision française.

La proposition de joindre à cette fusion la HADOPI ne fait que démontrer à nouveau la volonté de mainmise des industries du divertissement.

En revanche l’ARCEP, qui reste la dernière instance à peu près indépendante des industries du divertissement, a énormément à y perdre, et avec elle le citoyen, le consommateur, et toute l’industrie d’Internet.

 

Des articles en rapport sur la question :

 

 

 

 

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1ELL73qgSa1bw1QDNKYTLzmHv5zTcPiHcJ

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Petite expérience de DNS et de Twitter avec wikileaks

On a tout à fait le droit de ne pas partager à 100 % les idées et les procédés de Wikileaks, actuellement sur le devant de l’actualité, et certaines de ces critiques sont légitimes. Mais, a contrario, certains des procédés utilisés pour les faire taire ont un petit parfum qui, à titre personnel, me dérange.

L’expérience du jour : wikileaks.org ayant vu son DNS coupé par son hébergeur (problèmes d’attaques, officiellement), les discussions de ce matin sur Twitter consistaient à s’échanger “à la main” les adresses IP des miroirs… pas très pratique. Cette coupure de DNS fait suite à un déplacement du site de chez Amazon, aux USA, vers OVH, un hébergeur français.

Et puis j’ai fait une proposition toute bête qui a bien décollé et j’ai créé wikileaks.eu.org pour accomplir ma part, merci à tous ceux qui ont suivi et qui ont été ajoutés dans cete liste plus générale (section “miroirs DNS”).

Jean-Michel Planche ayant pris la peine de faire un résumé du contexte, je ne vais pas le paraphraser, allez voir son billet.

Voir aussi la lettre de mission d’Éric Besson (à Pascal Faure du CGIET) divulguée par LePost, qui vaut franchement le déplacement. Pour résumer, Éric Besson cherche un moyen d’expulser le site de France.

Un autre billet général chez Authueil sur la censure en général et celle de Wikileaks en particulier résume bien la question.

Et un article d’Écrans (Libération) résume bien la situation à l’exception d’une erreur : FDN n’héberge pas un miroir de Wikileaks, wikileaks.fdn.fr est juste un renvoi DNS suivant la méthode exposée ci-dessus.

Désolé pour ce billet un peu décousu mis à jour au fur et à mesure…

Mise à jour 18h45 : c’est maintenant le nom wikileaks.ch actif depuis ce matin qui est en carafe…

Mise à jour 4 décembre 2h35 : une liste plus complète chez Bluetouff.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1Lm2mqbTJtVajdeNM1nxxWD9iAKGBejsNx

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

SEO : référencement et liens entrants

Mon billet d’hier sur les experts SEO a eu un succès certain (plus de 1000 visites à ce jour), principalement grâce à un grand nombre de citations sur Twitter. Suite à certains commentaires et après avoir consulté les explications données par certains experts en référencement sur leur propre site, je pense utile de compléter mes explications par quelques considérations sur le système des « liens entrants », aussi appelés « backlinks ».

Google utilise, comme évoqué hier, l’analyse du contenu d’une page pour lui associer des mots clés. Mais l’invention principale de Google, qui lui a permis une bien meilleure qualité de recherche, a été de prendre en compte également les références aux pages indexées faites depuis d’autres pages, établissant un système de pondération appelé PageRank, et ouvertement inspiré du système d’évaluation de l’influence des publications scientifiques (H-number).

Il est donc très efficace pour un site qui souhaite être mieux placé dans les résultats de recherche d’obtenir des liens entrants provenant d’autres sites.

Et c’est là que les choses commencent à se gâter. Car pour obtenir des liens, il n’y a pas des dizaines de solutions :

  • attendre qu’ils viennent spontanément d’autres responsables de sites ou de pages, grâce à la qualité du contenu ;
  • en solliciter en tant que relations de « bon voisinage » (le plus souvent en effectuant une proposition réciproque de lien : on appelle cela un échange de lien). Cette technique relève du démarchage commercial ;
  • en créer soi-même « à la main » en écrivant d’autres pages ailleurs, ou des commentaires sur des blogs comme celui-ci, des forums, etc. On commence à entrer dans la manipulation pure et simple, voire la propagande, le contenu enrobant lesdits liens ayant toutes les chances de n’avoir aucun intérêt, sinon publicitaire ;
  • en fabriquer plus ou moins automatiquement en créant des pages bidon ou en allant écrire des commentaires sur des blogs pris plus ou moins au hasard. On entre là dans les techniques de spam pur et simple. Ce blog pourtant relativement confidentiel reçoit chaque jour plusieurs dizaines de commentaires-spam, heureusement filtrés plus ou moins automatiquement. Comme son équivalent en courrier électronique, ce spam pourrit la vie des internautes.

L’expert en SEO va donc s’attacher à obtenir des liens par tout ou partie des trois dernières méthodes, suivant l’idée qu’il se fait de l’éthique. On parle de black-hat ou de white-hat (comme en sécurité informatique), comme si les choses étaient binaires, mais en la matière on devrait le plus souvent parler de tons de gris…

Parallèlement, Google, dont le succès repose largement sur la qualité de ses résultats, n’a pas envie de la voir démolie par ceux qui sauront se placer mieux que les autres indépendamment de la qualité ou de la popularité spontanée de leur contenu. Google effectue donc un sérieux travail de nettoyage de ce que chez eux aussi on appelle du spam, et n’hésite pas à descendre dans son classement les sites qui ont abusé un peu trop éhontément des méthodes « créatives » d’obtention de liens évoquées ci-dessus.

Un bon aperçu de ce que cela peut donner a été fourni hier par l’expert en référencement qui a montré son savoir-faire en établissant une page parodique pratiquement vide de contenu, mais portant quasiment le même titre que la mienne, pour la faire apparaître temporairement mieux classée dans les résultats de Google à l’aide de liens entrants obligeamment fournis par ses relations.

Facile ? Oui, comme il l’a dit lui-même, cela ne lui a pris que quelques minutes. Encore bravo à lui, et merci pour cette démonstration, qui apporte de l’eau à mon moulin en mettant en évidence la nature de la contribution à l’écosystème des experts en référencement.

Ajout : un lien très intéressant montrant les limites de PageRank et ce que l’on peut obtenir à l’extrême en SEO, avec une société aux USA qui profite des liens posés par des clients indignés pour être mieux classée et avoir encore plus de clients…

Ajout du 1er décembre 2010 : autre lien qui fait suite au précédent, qui montre que ce genre de problème ne fait pas du tout, mais alors pas du tout, rigoler Google, qui a été spectaculairement réactif sur ce coup-là. Chapeau.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1LKzcsZKcVDqoqTLQ3u2TrHHB6rNH7CGD2

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Optimisation du référencement sur moteur de recherche : le SEO est-il une arnaque ?

Le dernier métier à la mode est celui de rebouteux-web, aussi appelé (expert en) SEO pour Search Engine Optimization, littéralement optimisation pour moteurs de recherche. En français on parle plutôt de référencement ; et principalement il s’agit d’être référencé sur Google, c’est à dire être bien placé dans les résultats de ce moteur, de préférence sur la première page, et idéalement en première position.

Vu la polémique provoquée par une page concernant les pratiques du SEO rédigée par Stéphane Bortzmeyer cet été, qui s’est fait violemment prendre à partie par les professionnels de la profession, j’ai souhaité effectuer une petite démonstration pour en avoir le coeur net.

La technique de base du SEO est très simple : trouver une combinaison de mots-clés qui soit à la fois en rapport avec la page à référencer, et rare (voire inexistante) dans le reste du web. Puisque Google donne lui-même dans ses résultats le nombre de pages contenant les mots-clés demandés ou des variations de ceux-ci, évaluer leur fréquence est extrêmement facile. L’utilisation de plusieurs mots-clés dans une recherche privilégie très fortement les pages qui les contiennent tous. Plus les mots clés utilisés sont rares, plus on peut limiter leur nombre. Un voire deux mots-clés très rares peuvent suffire à placer une page en première position sur Google.

C’est Google qui choisit lui-même les mots-clés pour indexer une page. Comment procède-t-il ?

  • d’abord, il utilise naturellement le texte de la page indexée.
  • ensuite, il complète par les mots trouvés dans le nom de domaine (la partie qui suit http://, jusqu’au / suivant)
  • enfin, il ajoute les mots trouvés à droite du nom de domaine, qui donnent l’adresse de la page au sein du site.

Le poids de ces différents éléments est variable, non dévoilé par Google (cela fait partie de leur sauce secrète). On peut supposer que le nom de domaine a un poids élevé, suivi par l’URL [MàJ : en fait pas tant que ça, cf les rectifications en commentaires] et le titre, les mots du contenu ayant un poids moindre, mais il existe des ajustements pour éviter que le système soit trop facilement exploitable par des spammeurs.

N’importe quelle personne rédigeant un blog apprend vite ces notions simples. Inutile d’être un « expert en SEO ».

Un court exemple valant mieux qu’un long discours, j’ai choisi quelques mots-clés pour voir si cela fonctionne. D’abord, des mots-clés liés au référencement : référencement, SEO, optimisation, arnaque, Google, moteur, recherche, web. Parmi ces mots-clés, à ce jour le plus fréquent est web (2,5 milliards d’occurrences !), le moins fréquent est moteur (66 600 occurrences seulement). Le second moins fréquent est arnaque.

Puis j’ai choisi les trois mots-clés les moins fréquents dans la liste qui précède : arnaque, optimisation, moteur pour les placer en titre de cet article. Il a fallu compléter pour que cela constitue une phrase, j’en ai profité pour utiliser d’autres mots-clés cités. Opportunément, le logiciel WordPress qui propulse ce blog utilise le texte du titre pour constituer l’URL. Rien de plus à faire de mon côté, donc.

Ensuite, j’ai choisi au hasard 3 mots dans le dictionnaire : eupatoire, contraction et dyspepsique. Ces mots sont tellement rares (notamment eupatoire) que cette page doit probablement être la seule du web (pour l’instant) à les contenir tous les trois…

Enfin, pour compléter cet essai, j’ai inventé un mot en tapant au hasard : xkvqoiikjbzrjwqdcqsd.

Vous pouvez vérifier par vous-même le classement de la page en effectuant des recherches sur des combinaisons des mots clés qui précèdent.

Tout cela, écriture de ce texte comprise, m’a pris environ 20 minutes. Évidemment, il s’agit d’un exemple simplifié, destiné à mettre en évidence les mécanismes principaux en oeuvre.

On comprend bien qu’un expert en SEO ne peut décemment pas avouer à ses clients qu’il leur facture plusieurs centaines, voire milliers d’euros, pour un travail aussi simple. Il va donc délayer la sauce avec des techniques qui, au mieux, s’apparentent plus à l’imposition des mains ou au placebo (très bien caricaturées ici), ésotériques à souhait, et au pire relèvent du spam pur et simple contre lequel Google lutte pour préserver la qualité de ses résultats. Le but est de bien montrer que le spécialiste, c’est lui, et que ses services valent le prix élevé auquel il vous les facture.

Et l’intérêt de la page, dans tout ça ? Eh bien, personne ou presque n’en parle, à part les vendeurs honnêtes de SEO, bien que cela soit le plus important au final. Cette technique étant applicable aveuglément pour être relativement bien référencé, personne ne se soucie de la qualité du contenu. Le SEO finit par devenir une fin en soi, proposée par de mauvais professionnels à de mauvais clients…

Une fois la page référencée par Google, j’ajouterai ici les mots-clés qui permettent de la faire apparaître en bonne position dans une recherche. Évidemment, ces résultats seront susceptibles de varier au fil du temps ; encore une bonne raison pour les experts en SEO de facturer leurs services de manière récurrente…

Mise à jour : voir aussi mon article complémentaire, SEO : référencement et liens entrants.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1PRzNFbYKFTdC9SEZC1QVa9ZUydNBkGLx5

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Le quart d’heure d’anonymat

Du quart d’heure de célébrité « inventé » par Andy Warhol en 1968, on arrive maintenant, avec Internet et les réseaux sociaux au quart d’heure d’anonymat suggéré par Jean-Marc Manach. Un article qui résume bien la question telle qu’elle se pose aujourd’hui, avec la nécessité pour chacun de devenir son propre « dircom » et de s’auto-aseptiser.

Extraits :

Comme le souligne danah boyd, chercheuse ès médias sociaux, “la vie privée n’est pas une technologie binaire que l’on peut allumer ou éteindre” :

“La vie privée renvoie au fait de pouvoir contrôler la situation, de pouvoir contrôler quelle information va où, et d’avoir la possibilité d’en réajuster le flux de manière appropriée lorsque l’information déborde ou va trop loin. Les gens se préoccupent de leur vie privée parce qu’ils ont peur d’en perdre le contrôle.”

[…]

Le problème, c’est que le statut de “personnalité publique“, après avoir longtemps été réservé à un nombre restreint de privilégiés, est aujourd’hui accessible à tout un chacun, en quelques clics. Or, s’inquiète danah boyd, “les conséquences sociales, considérables, de ce changement de paradigme ne seront jamais assumées par les geeks de la Silicon Valley qui en sont responsables” :

“Certains d’entre eux voudraient forcer tout le monde à accepter ce changement culturel où la vie publique serait la nouvelle norme sociale. Je ne pense pas que ce soit très raisonnable, et ne pense pas non plus que c’est ce que réclament les gens.

Ce n’est pas parce que certains ont compris qu’ils pouvaient gagner quelque chose à s’exposer que tout le monde en a envie. Et ça ne veut pas dire, non plus, que la “vie privée” n’a plus de valeur. Il faut leur donner la possibilité de se protéger, et de faire face aux conséquences que cela entraînera.”

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1DtszfjdevnwLX3VYRPVCBmy8pke751EGL

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

I’m sorry Dave, I’m afraid I can’t do that

Suite à la débacle Buzz, cela fait plusieurs jours que je me demande le sort que je dois réserver aux différents comptes que j’ai chez Google, tous liés au même compte Gmail. Voici où j’en suis à ce jour :

  • un compte Gmail/Gtalk -> conservé (je m’en sers principalement pour Gtalk)
  • un compte Buzz -> détruit
  • un compte Orkut -> informations personnelles nettoyées au maximum, permissions fermées au maximum, ne reste que 2 photos et la liste d’amis
  • un compte Reader -> vidé, réglages disponibles fermés
  • un compte Analytics -> détruit
  • un compte Webmaster Tools -> en cours de nettoyage, à migrer
  • un compte Wave -> préservé pour l’instant
  • un compte App Engine -> préservé pour l’instant
  • un compte Calendar -> probablement vide, à vérifier de près
  • un compte Docs -> non vide, à vérifier de près
  • un compte Contacts (synchronisé depuis mon téléphone Android) -> à vider à l’occasion, dès que j’aurai trouvé une autre solution ; il existe des applications Android pour cela.
  • un compte Picasa -> vérifié vide
  • un compte iGoogle -> théoriquement vide, à vérifier
  • un compte Web History -> désactivé
  • un compte Maps -> préservé pour l’instant, à vérifier de près
  • un compte Sites -> vidé mais à vérifier de près

Où l’on s’aperçoit à quel point la loi Informatique et Libertés, qui interdit le croisement de fichiers, était visionnaire… dès 1977.

J’ai l’impression d’être l’astronaute Dave dans la scène de 2001, Odyssée de l’espace, qui démonte l’ordinateur HAL, bloc de mémoire par bloc de mémoire, après que celui-ci ait tenté de le laisser périr dans l’espace pour le bien de l’humanité.

Tout cet inventaire est facile grâce au tableau de bord Google. Merci, Google.

L’étape numéro 2, très importante, va consister à séparer les comptes subsistants en créant autant de comptes Gmail distincts et en y migrant les données, afin d’éviter que Google relie entre eux des comptes que je ne souhaite pas voir reliés.

Cela comprendra donc au minimum :

  • un nouveau compte pour Webmaster Tools
  • un nouveau compte pour Docs
  • ultérieurement, éventuellement, de nouveaux comptes pour Maps et Wave

En revanche je vais rencontrer un gros problème pour ce qui concerne les comptes liés à Android (Gmail, Calendar, Maps, Contacts) : je ne crois pas qu’Android me laisse gérer cela sur plusieurs comptes Google séparés. Le cas échéant, je viderai purement et simplement les comptes qui continuent à me poser problème.

Je sais que tu fais tout cela pour me simplifier la vie, GoogHAL, mais j’aime avoir une vie compliquée en décidant moi-même des choses qui ne concernent que moi.

Mise à jour : création d’un nouveau compte Gmail… incroyable, même après avoir explicitement refusé Buzz (en cliquant sur le petit lien bien caché à côté du gros bouton “Essayer Buzz”), Buzz apparaît dans le nouveau compte, il faut le détruire explicitement en confirmant 2 fois… on dirait le sparadrap du capitaine Haddock dans Vol 714 pour Sydney.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1LtK2bKZyfG8T5SznVeyyNpAXPnG3uFPj

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

L’OPA de Google Buzz sur nos données personnelles

Les problèmes de Google Buzz ? Oubliés, mieux que ça : ils n’ont jamais existé, ce sont les utilisateurs qui avaient mal compris. La plainte EPIC/FTC ? « On adore discuter avec les associations ». Le mélange vie privée – vie professionnelle ? On n’en parle même pas, de toute façon Google a décrété que les deux sphères allaient fusionner, puisqu’on vous le dit.

Le concierge de Buzz a annoncé ce jour quelques petits trucs à connaître, juste histoire de faire bien comprendre aux naïfs que la vie vue par Google reprend ses droits.

Chapeau. C’est du grand art ; à ce niveau ce n’est plus du noyage de poisson, c’est de l’atomisation de cachalot, catégorie champion olympique.

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1HCi8KoQEj5eCUu6AvXWn8W7W5pEKR8hsd

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂

Buzz: EPIC files a complaint

EPIC Urges Federal Trade Commission to Investigate Google Buzz.

EPIC fail“, as Arstechnica nicely puts it.

PDF of the detailed complaint, a must-read IMHO, which is the best summary to date of what the fuss is all about, including point by point discussion of the opt-out issues.

[followup article to Google Buzz privacy debacle, Let the second Buzz effect begin and Google Buzz start-up requesters update]

No tips yet.
Be the first to tip!

Like this post? Tip me with bitcoin!

1NHUrbCZ8VFdp8qQiLFtkKCcYgkYQZuYVJ

If you enjoyed reading this post, please consider tipping me using Bitcoin. Each post gets its own unique Bitcoin address so by tipping you're also telling me what you liked, in addition to contributing to the blog hardware and electricity, and perhaps a few beers if you don't mind 🙂