Category Archives: Weberies 2.0

copyrightdirective, fr, vie privée, Weberies 2.0

La directive copyright est passée près de chez vous, ou : un mariage et deux enterrements de la liberté de communication

2021/11/08 Pierre 1 Comment

Tout a commencé par une modeste vidéo de mariage prise avec mon téléphone ces dernières semaines.

Ce week-end, en une soirée, j’en ai effectué un premier montage rapide avec kdenlive, pour l’envoyer à quelques membres de la famille pour premier visionnage.

Ce qui semblait le plus simple pour leur faciliter la vie était de placer la vidéo sur Youtube.

Les modes de publication sur Youtube

Si vous connaissez la publication sur Youtube, vous pouvez passer directement à la section « Exécution ».

Trois options sont possibles : vidéo privée, non répertoriée, ou publique :

Le mode « privé » ne donne accès qu’aux personnes qui ont un compte Google et qui sont explicitement listées par l’auteur comme autorisées. Ce mode est très peu pratique dans la plupart des cas, soit que l’on ne connaisse pas l’identifiant Google de tous les destinataires, soit que certains d’entre eux n’en possèdent tout simplement pas.

Le mode « public » rend la vidéo accessible à tous et indexée par les moteurs de recherche, donc trouvable à travers eux. Elle est également annoncée dès publication à tous les abonnés de la chaîne.

Le mode « non répertorié », enfin, est intermédiaire. Il rend la vidéo accessible à tous ceux qui en connaissent l’adresse, qui peuvent la transmettre à qui ils le souhaitent, mais la vidéo reste discrète : elle n’est annoncée à personne, ni trouvable par des moteurs de recherche.

C’est ce dernier mode que j’avais choisi, car il semble le plus pratique pour diffuser une vidéo personnelle familiale.

Exécution sans sommation

Avec mon insouciance et mon innocence coutumières, je téléverse donc samedi soir la vidéo sur Youtube.

Le lendemain, je découvre que la vidéo a été bloquée suite à « Réclamation ». Ce n’est pas vraiment une surprise, puisque j’ai déjà abondamment parlé ici de Content-ID et de la directive copyright, le système qui détecte des extraits d’œuvres et rend les intermédiaires responsables des contrefaçons, et que ma vidéo comporte un large extrait filmé de la piste de danse.

Extrait de la page “gérer les vidéos” de Youtube

On peut obtenir la liste des « Réclamations » pour identifier les œuvres à problèmes :

Liste des réclamations d’ayants-droit (2 parties réassemblées)

Ma vidéo a donné lieu à 13 réclamations : 11 d’entre elles sont mineures et m’empêchent de monétiser la vidéo, ce qui n’était de toute façon pas mon intention. Deux sont bloquantes : elles empêchent la vidéo d’être visible par d’autres personnes que moi, y compris en la passant en mode « privé ».

De là, il est possible de voir à quels morceaux de la vidéo s’appliquent les réclamations :

Petits meurtres d’œuvres entre amis

Ensuite, on peut choisir le sort à réserver à chaque passage litigieux :

le supprimer purement et simplement
remplacer la musique (ce qui pourrait être amusant sur un morceau dansé)
couper le son pendant le passage

Le remplacement propose directement une liste de titres gratuits. On peut également, apparemment, placer un morceau que l’on a importé soi-même.

Quant à la suppression du son, il existe deux possibilités : remplacer par un silence, ou tenter d’enlever uniquement le morceau musical contesté, donc supposément en conservant les bruits d’ambiance, par traitement du signal.

J’ai choisi « ne couper que le son du titre », espérant un résultat cocasse où l’on aurait encore entendu des applaudissements, cris et bruits de pas sans la musique, mais ça n’a pas fonctionné : aucun son n’a subsisté. On était prévenu par la mention bêta qu’il ne fallait pas s’attendre à des miracles. De plus, le traitement est particulièrement long et ne peut être réalisé que sur un seul morceau à la fois.

La résurrection

Finalement, de guerre lasse, j’ai mis la vidéo en « non listée » sur ma propre instance Peertube.

Peertube est un logiciel libre qui permet de créer sa propre plateforme vidéo personnelle en évitant les systèmes de censure a priori installés sur les grandes plateformes pour respecter la directive copyright.

Les promesses non tenues des sociétés d’ayants-droit et de la directive copyright

Rappelons qu’à l’origine de toutes ces complications, la directive copyright, pour reprendre les mots d’un ancien ministre de la culture, Franck Riester, serait là pour protéger « les créateurs et la diversité culturelle européenne » :

En parlant de résurrection, j’ai exhumé ces deux affirmations évidemment rassurantes du secrétaire général de la Sacem — une des organisations à l’origine de l’article 17 de la directive, ici en jeu –, David El Sayegh, dans cet article des Échos. Il s’agissait alors, en 2018, d’appuyer le vote de la directive à l’époque incertain en raison d’un premier vote défavorable.

cela n’aboutira pas à un filtrage généralisé (si)
« vous pouvez vous marier plusieurs fois avec des chansons différentes » (non)

Cette fiction n’a été que de courte durée puisque, dès le vote de la directive, Jean-Marie Cavada, son rapporteur, se félicitait du filtrage automatisé qui serait mis en œuvre.

On voit.

archivé ici https://twitter.com/reesmarc/status/1014540988617056256 (remerciements à Marc Rees)

divers, fr, Hacks, Weberies 2.0

Petit jeu de fraîcheur avec les moteurs Qwant et Bing

2020/03/11 Pierre 1 Comment

Vous connaissez sans doute le moteur de recherche français Qwant. Ce moteur a défrayé la chronique à plusieurs reprises ces dernières années, et à plusieurs titres.

L’un des critiques principales était sa dépendance au moteur états-unien Bing de Microsoft.

En effet, créer un index significatif du web est une entreprise difficile et coûteuse en temps comme en ressources. Qwant avait donc choisi plus ou moins officiellement de s’appuyer sur les résultats de Bing, pendant qu’il constituait son propre logiciel et son propre index, tout en vendant des publicités sur les pages de résultats pour s’assurer un début de revenu.

Rapidement sont apparues des critiques sur la vitesse d’indexation des sites, certaines pages n’étant manifestement rafraîchies que rarement.

J’ai voulu en avoir le cœur net en créant une page sur un site que je gère, nic.eu.org. La page est ici et affiche la date et heure du jour à Paris, avec une chaîne unique permettant de la retrouver facilement dans les moteurs. Elle est référencée par un lien caché sur la page d’accueil du même site.

Le résultat est plutôt bon en termes de fraîcheur. Ainsi, ce matin 11 mars 2020, on peut voir sur Qwant que la page indexée a été parcourue le 9 mars à 0h51 :

Cependant, les choses se gâtent en ce qui concerne l’indépendance vis-à-vis de Bing. En effet, la page retournée par Qwant est en fait celle indexée par Bing, comme le montre une recherche sur Bing qui donne une date identique.

On obtient le même résultat par une recherche sur Duckduckgo, autre moteur utilisant Bing :

Dans les journaux de connexion du serveur web, il est facile de voir qu’en effet, à cette date, c’est bien l’indexeur de Bing qui est passé sur la page, suivi peu après par celui de MSN :

40.77.167.206 - - [09/Mar/2020:00:51:23 +0100] "GET /d.html HTTP/1.1" 200 63 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" nic.eu.org

40.77.167.221 - - [09/Mar/2020:00:53:09 +0100] "GET /d.html HTTP/1.1" 200 63 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)" nic.eu.org

À ce jour, l’indexeur de Qwant n’a pas visité cette même page. Il passe régulièrement sur le site, mais se contente en général de visiter la page d’accueil et l’icone du site :

194.187.171.130 - - [11/Mar/2020:10:28:48 +0100] "GET /favicon.ico HTTP/1.1" 404 196 "-" "Qwantify/1.0" nic.eu.org

194.187.171.142 - - [11/Mar/2020:10:28:48 +0100] "GET / HTTP/1.1" 200 1572 "-" "Qwantify/1.0" nic.eu.org

copyrightdirective, fr, Geek stuff, neutralité, vie privée, Weberies 2.0

La démission française sur la liberté d’expression numérique

2019/02/05 Pierre 1 Comment

Un point sur la directive copyright semble utile (j’avais écrit ici une petite introduction précédemment, pour les lecteurs qui ne sont pas au courant de l’article 13 de cette directive).

La nouvelle du jour, c’est qu’après des mois de tergiversations, la position française (totalement acquise aux ayants-droit) semble avoir eu gain de cause, ce qui est inquiétant. Les garde-fous demandés par les défenseurs des libertés en ligne semblent avoir été largement ignorés.

Ainsi, ni PME ni les sites à but non lucratif (ce dernier point ne semble pas certain, mais ce n’est pas encore très clair) ne seraient exclus du champ de l’article 13, ce qui revient à mettre une barrière d’entrée infranchissable à ceux-ci en face des GAFAM puisque ces derniers disposent déjà des technologies de filtrage nécessaires pour être à l’abri de l’article. Et il risque d’en résulter une censure sans subtilité des contenus produits par les utilisateurs, voire disparition pure et simple (ou inexistence) de certains services (voir ici le tout dernier article de Julia Reda, députée européenne allemande, pour les détails).

Revenons sur les facteurs qui font que la position française en la matière est particulièrement extrémiste.

Les institutions françaises et les ayants-droit

Sans revenir en détail sur la situation française autour de l’exception culturelle, un peu de contexte est nécessaire.

Depuis des décennies, la concrétisation de l’exception culturelle est le passage de lois de protection de l’industrie du spectacle, éventuellement au détriment de l’intérêt public.

Il y a ainsi eu les lois cherchant à protéger le cinéma contre la télévision (chronologie des médias), puis le cinéma et la télévision contre la cassette VHS et le DVD, puis les chaînes privées brouillées, puis la VHS et le DVD contre les importations contrariant les exclusivités nationales, puis le CD contre la musique en ligne, puis tout cela contre le piratage. Cette liste n’est, bien sûr, pas exhaustive (des séries de lois similaires existent concernant le livre).

S’y ajoutent les diverses taxes et redevances destinées à soutenir la même industrie : redevance télévisuelle (dont une bonne partie sert à acquérir des droits de diffusion), redevance copie privée (supposée dédommager les ayants-droit pour les copies de sauvegarde des œuvres que vous avez légalement acquises, mais que vous paierez également pour stocker vos vidéos de vacances ou en achetant votre téléphone), droits divers sur votre abonnement Internet, etc.

S’y ajoutent un certain nombre d’instances et d'”autorités administratives indépendantes”, suivant le terme consacré : la Hadopi et le CSA, mais aussi le CSPLA (conseil supérieur de la propriété littéraire et artistique) ou la commission pour la rémunération de la copie privée, qui décide unilatéralement du montant de la redevance copie privée. Toutes ces entités dépendent du ministère de la culture.

Une des missions principales attribuées au ministère de la culture est de réaliser, au niveau français, la législation pour protéger les ayants-droit, et à l’échelle européenne, le lobbying pour légiférer dans le même but, en particulier la directive copyright (dite “directive droit d’auteur” en France) qui nous intéresse en ce moment.

Officiellement, la mission du ministère est de « rendre accessibles au plus grand nombre les œuvres capitales de l’humanité et d’abord de la France ». En pratique, cette mission est interprétée de manière limitative : ne comptez pas sur le ministère pour défendre les licences libres ou le domaine public, car il s’agit d’un casus belli vis-à-vis des industries littéraires et du spectacle, et celles-ci l’ont clairement exprimé à plusieurs reprises.

Enfin, ce panorama ne serait pas complet sans un mot sur la représentation française au parlement européen : elle a été à l’avenant lors du vote de juillet, dans une écrasante majorité en faveur des ayants-droit, sans nuance et tous partis confondus, à l’exception notable des Verts.

Les médias et les ayants-droit

La couverture par les médias généralistes en France de la directive copyright a été quasiment inexistante, sinon pour :

accorder des tribunes aux ayants droit, pour défendre l’utilité de l’article 13, en en ignorant les effets néfastes ;
s’indigner du lobbying — réel — de Youtube et Google contre la directive, en oubliant totalement que les ayants-droit ne sont pas en reste, loin de là, en matière de lobbying ; et qu’au delà de ces 2 lobbies bien visibles et d’un storytelling binaire mais facile, devrait être évoqué l’intérêt général, celui des citoyens.

En ce qui concerne la presse, la directive prévoit l’article 11, censé obliger les moteurs de recherche à rémunérer les journaux pour le trafic que les premiers leur apportent. Pour en arriver à cette absurdité (qui équivaut à demander une commission à un taxi pour qu’il ait le droit de déposer ses clients à tel hôtel), il faut tordre le droit d’auteur et les usages d’Internet, en piétinant le droit de citation.

Les lobbyistes des articles 11 et 13 sont donc entrés depuis l’été 2018 dans un jeu de donnant-donnant. « Je soutiens ton article 11, en échange tu soutiens mon article 13, et réciproquement ». En effet, le sort de ces deux articles est lié : l’un comme l’autre visent clairement Internet sous couvert de cibler les GAFAM ; l’un comme l’autre sont contestés depuis des mois par les associations de défense des libertés ; et le reste de la directive copyright est relativement consensuel.

Ainsi, les tenants de l’article 11 (la presse) se sont vu reprocher par ceux de l’article 13 (les ayants-droit de l’industrie du spectacle) l’échec du vote de juillet 2018, qui aurait permis une validation accélérée au parlement européen, en donnant mandat au rapporteur Axel Voss pour terminer l’écriture de la directive.

Autrement dit, le sort de la directive copyright repose essentiellement sur le consensus qui sera obtenu sur ces articles 11 et 13 ; et cela traîne, car la position française, totalement calquée sur les demandes des ayants-droit, est loin de faire l’unanimité dans l’Union Européenne.

En France, le sujet ne suscite guère d’intérêt médiatique sinon pour s’indigner épisodiquement de manière pavlovienne de l’hégémonie des GAFAM, comme dans cette récente édition de l’Instant M de France Inter qui, toute occupée à dénoncer l’activisme de Youtube, en oublie accessoirement celui des ayants-droit, mais surtout arrive à faire l’impasse sur le sujet de la liberté d’expression, ce qui est plus gênant.

Précisons que je n’ai rien contre cette émission. C’est simplement l’exemple le plus récent auquel j’ai été confronté, mais il en existe bien d’autres, dans le Monde, dans Les Échos, et ailleurs, sous forme, souvent, de tribunes d’opinion à des collectifs d’artistes, ou d’interviews d’artistes en vue. Ainsi, pour ne citer que Jean-Michel Jarre, dès les titres, la tonalité est claire :

Le Monde : Jean-Michel Jarre : « YouTube ne doit pas devenir un monopole »
France Info : Jean-Michel Jarre défend les auteurs face aux “monstres d’internet”

On cherchera en vain des articles aussi médiatisés exprimant des positions allant clairement contre les articles 11 et 13 de la directive, ceux-ci étant essentiellement du ressort de la presse spécialisée, ou relégués dans des rubriques “actualité numérique”.

Il faut quand même noter quelques exceptions. J’ai eu la chance et l’honneur d’être sollicité par France 24 pour défendre le point de vue des utilisateurs et hébergeurs Internet, ainsi que pour des articles de BFMTV et Marianne, ce dont je les remercie. J’ai également été invité par l’April à l’émission Libre à vous sur Radio Cause Commune, qui est revenue à plusieurs reprises sur la directive. Enfin, on ne peut oublier la couverture régulière de ces sujets, et de tout ce qui concerne le lobbying numérique des ayants-droit, dans Nextinpact, sous la plume de Marc Rees.

La situation associative française

Plus préoccupant, et plus surprenant, l’une des associations phares de défense des droits numériques en France, la Quadrature du Net, a fait preuve d’un mutisme quasi complet sur le sujet de la directive, hors quelques déclarations de principe contre l’article 13 jusqu’à l’été 2018, suivies de prises de positions niant le danger de la directive pour l’« Internet libre », totalement à contre-courant du sentiment général dans les associations similaires.

La Quadrature n’a pas jugé possible non plus de prendre le temps de signer la lettre ouverte d’EDRI, au contraire de 90 des associations européennes et internationales les plus en vue se préoccupant de droits numériques, dont l’EFF états-unienne.

C’est d’autant plus ennuyeux que la Quadrature du Net dispose, dans le domaine associatif numérique, d’un historique et d’une écoute médiatiques qui n’ont guère d’équivalent en France. Son absence peut en partie expliquer la couverture médiatique univoque observée sur le sujet.

On note un autre absent de marque, le Conseil National du Numérique, qui semble se cantonner désormais aux missions que lui confie le gouvernement Macron.

Les deux principales associations françaises ayant réellement fait campagne contre la directive sont l’April, association de défense du logiciel libre, et Wikimédia, la branche française de la fondation qui édite le bien connu Wikipédia, concerné directement par les articles 11 et 13. On peut citer également le CNLL et Renaissance Numérique parmi les signataires de la lettre ci-dessus.

Un article 13 extrême

Même parmi les ayants-droit, l’article 13 ne faisait pas l’unanimité. Ainsi, en décembre, des ayants-droit du cinéma et du sport se sont désolidarisés de l’article tel qu’il était rédigé, estimant qu’il allait trop loin et ne bénéficierait qu’aux grandes plateformes. C’est également la position des associations.

Un résultat à la hauteur des efforts français

Comme précisé plus haut, il semble qu’après un combat entre la position française et celle d’autres pays, dont l’Allemagne, la directive copyright soit en train de passer avec un article 13 in extenso, minimaliste vis-à-vis de la protection des droits des citoyens et des intermédiaires techniques, la position de la France ayant prévalu. Rien n’étant jamais gratuit dans ces négociations, difficile de dire contre quel abandon réciproque la défense des ayants-droit a été troquée vis-à-vis de l’Allemagne.

Une situation plombée

En France, comme on l’a vu, la situation politique est verrouillée depuis des décennies par les ayants-droit, au détriment de l’intérêt général, et sans espoir ni même volonté d’en sortir.

Par parenthèse, car le domaine de la SVOD (vidéo par abonnement en ligne) est très anecdotique au regard des impacts potentiels des articles 11 et 13, le prochain échec sera celui d’un concurrent potentiel à Netflix, coulé d’avance par une législation et un écosystème hexagonaux hostiles à toute innovation en la matière, et une absence de vision. Ainsi, après avoir plombé molotov.tv par l’accumulation de règles sur les magnétoscopes virtuels, après le quasi échec de Canal Play qui en est réduit à imposer des procédures de désabonnement compliquées pour retenir ses abonnés (on notera que Vivendi n’a pas voulu acquérir Netflix à ses débuts), on nous prépare salto.fr, sur fonds publics, qui croit pouvoir s’imposer par des exclusivités sur les séries de France Télévision (celles-ci seront retirées de Netflix), et qui, inévitablement, rejoindra quelques temps après son ouverture la longue liste de nos échecs de stratégie industrielle et politique.

Et maintenant ?

La première chose à faire, urgente et essentielle, serait de sortir du raisonnement mortifère (et réactif) « ce qui est mauvais pour les GAFAM est bon pour l’intérêt général » qui actuellement motive et oriente l’essentiel de l’action législative française en matière numérique.

D’une part, parce que ce qui semble mauvais pour les GAFAM ne l’est pas forcément réellement pour eux. Ainsi, Google/Youtube dispose déjà de la technologie nécessaire pour appliquer l’article 13, ce qui lui donne une avance considérable sur le reste de l’industrie. Ensuite, on a appris récemment que Facebook, derrière une opposition de façade à l’article 13, poussait discrètement le législateur à l’adopter, parce que Facebook possède également une avance technologique en la matière.

D’autre part, ce qui semble mauvais pour les GAFAM, a, a priori, des chances de l’être également pour des acteurs similaires, les hébergeurs et autres intermédiaires techniques, qu’ils soient à but lucratif ou non, et Wikimédia l’a bien compris. Difficile de se plaindre de la prééminence persistante des GAFAM lorsqu’on a savonné également la planche des services concurrents, à moins que le plan soit de renforcer cette prééminence pour avoir un lieu de contrôle, surveillance et taxation centralisé plus simple à gérer par les états.

Dans un autre registre, on voit déjà dans les tentatives de taxation de Google et Facebook par l’état français que le crayon du législateur peut déborder : il suffit qu’un article de loi soit mal rédigé pour qu’il ait un impact bien au delà de Google ; la loi étant supposée ne pas viser un acteur particulier, ce qui serait discriminatoire, elle doit établir des principes, mais les acteurs similaires (dans le monde publicitaire en particulier) existent et, s’ils sont probablement ravis qu’on taxe Google, ils souhaiteraient éviter qu’on les taxe pour la même activité.

Il suffit de transposer la situation fiscale à celle des articles 11 et 13 pour imaginer les dangers vis-à-vis de la liberté d’expression.

Ensuite, parce que se focaliser sur la lutte contre les GAFAM revient à négliger les citoyens. Ceux-ci auraient du mal à migrer en masse vers d’autres services, même si cela pourrait être souhaitable, à supposer que de tels services existent. Notamment, restreindre par la loi la liberté d’expression sur les GAFAM, même si elle n’y est pas parfaite, revient à restreindre la liberté d’expression tout court.

Enfin, la loi doit poser des principes généraux et fonctionner le moins possible par exceptions. Ainsi, l’article 13 prévoit une liste limitative d’exceptions, qui correspondent à des services déjà existants. Mais l’imagination des développeurs de sites et d’applications est plus fertile que celle du législateur et des lobbies du moment, et les possibilités d’Internet plus larges. Ainsi, si les forges de logiciel ou les encyclopédies en ligne n’existaient pas déjà, avec des acteurs de taille notable pour les défendre, les exceptions correspondantes auraient été tout simplement oubliées.

À côté de quels autres services et usages encore inconnus sommes-nous en train de passer en écrivant la loi contre les acteurs hégémoniques du moment et pour soutenir tel ou tel groupe d’intérêt sur des modèles d’un autre temps qui, tôt ou tard, devront être repensés en fonction des possibilités de la technologie, et non contre celle-ci ?

Et pour revenir à la liberté d’expression : elle est — en partie — incluse dans le paragraphe qui précède, dans ces futurs services, même si elle mériterait un développement. Rappelez-vous du Minitel, un modèle qui a eu son heure de gloire, mais très encadré à tous points de vue, et en particulier pour préserver le modèle de la presse papier. Pensez-vous vraiment que la liberté d’expression y était aussi étendue que sur Internet aujourd’hui ?

Et plus largement, les attaques récentes contre l’anonymat en ligne par le gouvernement, beaucoup de politiques même dans l’opposition, et certains syndicalistes et éditorialistes montrent que la position de la France sur les articles 11 et 13 est loin d’être un accident de parcours.

fr, Geek stuff, vie privée, Weberies 2.0

Sécurité des serveurs web avec TLS, petite toilette d’automne 2016

2016/09/28 Pierre 4 Comments

Résumé pour gens très pressés : ce n’est pas si difficile que cela en a l’air.

Résumé pour gens pressés : même sans être un gourou de la cryptographie, il est possible de sécuriser son site au niveau approximatif de l’état de l’art (du moment — ce n’est jamais une tâche définitive) en s’appuyant sur des sites de recommandations réalisés par des spécialistes.

Après avoir passé quelques heures à peaufiner ma configuration, je pense utile de partager ce que j’ai appris pour dispenser autour de moi un peu de bonheur artificiel par l’entremise de la sécurité cryptographique.

L. Hirlimann (@lhirlimann) m’a récemment orienté sur un excellent site de la fondation Mozilla, observatory.mozilla.org, qui permet de vérifier la configuration sécurité basique de votre site web, à commencer par l’aujourd’hui indispensable TLS, et mutualise également (par défaut, mais c’est débrayable) les résultats des non moins excellents :

1. TLS, les algorithmes cryptographiques

Au-delà de ses origines mathématiques, la cryptographie est une affaire de paranoïaques qui n’ont pas tous exactement le même avis sur ce qui est casher ou pas à un instant donné. Les audits rapides réalisés par les sites qui précèdent vous en convaincront rapidement.

Ainsi, après quelques premières modifications rapides sur ma configuration TLS, SSL Labs attribuait un A+ à ce site, alors que tls.imirhil.fr l’affublait d’un catastrophique F sous prétexte que l’algorithme DES n’était pas désactivé.

Bien entendu, cela évolue aussi au fil du temps, qui fait qu’un algorithme donné va passer en quelques petites décennies à peine du statut de “sûr” à celui de “passoire”, que ce soit par l’évolution des performances brutes ou par celles de la recherche en attaques cryptographiques.

Par ailleurs, vous aurez éventuellement également le plaisir de vous faire rappeler à l’ordre par ces analyses si votre implémentation TLS comporte des trous de sécurité connus. J’ai découvert qu’il est assez facile de se faire avoir, même avec un système d’exploitation que l’on pensait à jour.

Les “suites” cryptographiques recommandées varient au fil des sites spécialistes que l’on consulte.

Voici, pour ne pas vous faire languir, celle que j’ai concoctée pour satisfaire les sites cités (!) ci-dessus, et qui est certainement sujette à commentaires et critiques (attention, c’est supposé tenir sur une ligne sans retour) :

EECDH+AESGCM:EDH+AESGCM:AES256+EECDH:ECDHE-RSA-AES128-SHA:DHE-RSA
-AES128-GCM-SHA256:AES256+EDH:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES128-GCM-S
HA256:DHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-SHA384:ECDHE-RSA-AES128-SHA256:
ECDHE-RSA-AES256-SHA:DHE-RSA-AES256-SHA256:DHE-RSA-AES128-SHA256:DHE-RSA-AES256-
SHA:DHE-RSA-AES128-SHA:AES256-GCM-SHA384:AES128-GCM-SHA256:AES256-SHA256:AES128-
SHA256:AES256-SHA:AES128-SHA:HIGH:!aNULL:!eNULL:!EXPORT:!DES:!3DES:!MD5:!PSK:!RC4

N’allez surtout pas croire que j’ai construit ni même analysé en détail ce qui précède : la liste provient à l’origine de https://www.digicert.com/ssl-support/ssl-enabling-perfect-forward-secrecy.htm dont l’objet est d’expliquer la configuration d’un serveur web pour éviter qu’un vol de clé privée permette le déchiffrement a posteriori des communications, une mesure à prendre suite aux révélations de l’affaire Snowden sur les capacités de la NSA, et suite également à l’affaire Lavabit.

J’ai simplement amendé la liste pour y ajouter !DES:!3DES: pour évacuer ce vieil algorithme des choix et passer chez tls.imirhil.fr d’un catastrophique F à un passable B.

Si comme moi vous utilisez Apache, cette liste est à placer dans la directive SSLCipherSuite.

Problème : l’incantation qui précède est difficile à comprendre, et donc à modifier, si on n’a pas lu la documentation. En particulier il ne suffit pas d’ajouter !DES pour se débarrasser également de 3DES. Ce n’est pas facile à découvrir rapidement en passant par les sites ci-dessus, qui pour éviter d’être surchargés ne permettent pas des accès trop fréquents (limite à 5 minutes au mieux).

J’ai donc découvert également l’excellente (tout le monde est excellent ici, vous l’aurez compris) commande :

openssl ciphers "la chaîne"

et son avatar plus bavard :

openssl ciphers -v "la chaîne"

qui permettent de tester la chaîne immédiatement en local pour voir ce qu’elle produit sans avoir à attendre la réponse d’un serveur situé à l’autre bout de la planète.

2. Sécurité “web” : contenu et entêtes

Ce qui précède ne concerne que la partie TLS, c’est-à-dire la couche de chiffrement.

C’est ensuite que observatory.mozilla.org prend tout son sens, en complétant l’expertise cryptographique avec l’expertise web des auteurs de Firefox par le tableau suivant (exemple pour ce site au jour de la publication de ce billet) :Je ne vais pas entrer dans les détails ; chaque point correspond à des catégories particulières d’attaques plus ou moins pertinentes pour chaque site, et comme vous pouvez le voir je n’ai pas encore débloqué tous les trophées. On y trouve des recommandations sur :

HSTS (Host Strict Transport Security), permettant au site de s’engager vis-à-vis du navigateur sur la disponibilité de https.
Subresource Integrity, pour valider les contenus inclus (en particulier scripts) stockés sur des serveurs tiers ;
X-Content-Type-Options, pour interdire au navigateur d’interpréter n’importe quoi (par exemple une supposée image téléchargée par un attaquant) comme un script ;
X-Frame-Options, pour bloquer des attaques par détournement de clics (clickjacking) ;
les redirections diverses afin d’amener l’utilisateur à un site https même dans le cas où il ne s’y est pas dirigé lui-même initialement ;
etc

observatory.mozilla.org vous donne par les liens bleus (dont j’ai recopié certains ci-dessus) toutes les explications détaillées sur les possibilités et le sens de chaque option de configuration.

Sous Apache, cela se configure comme ci-dessous, à condition d’avoir chargé le module mod_headers.

Attention : les options pour mon site ne sont certainement pas exactement celles dont vous aurez besoin ; en particulier vous pouvez facilement vous tirer une petite balle dans le pied et vous retrouver avec Javascript désactivé sur certaines fonctions essentielles. Ce fut mon cas, ce qui m’a fait perdre temporairement l’éditeur Wysiwyg de WordPress, et le problème est encore potentiellement présent dans l’exemple qui suit.

Attention également aux sauts de ligne si vous recopiez.

  # HSTS 366 days
Header set Strict-Transport-Security "max-age=31622400"
# Prevent browsers from incorrectly detecting non-scripts as scripts
Header set X-Content-Type-Options: nosniff
# Block site from being framed
Header set X-Frame-Options "DENY"
# Do the same thing, but with Content Security Policy
# +Disable unsafe inline/eval, only allow loading of resources
# (images, fonts, scripts, etc.) over https (recommended)
Header set Content-Security-Policy "default-src https:; frame-ancestors 'none'"
# Block pages from loading when they detect reflected XSS attacks
Header set X-XSS-Protection "1; mode=block"

Ces recommandations permettent d’élucider le comportement souvent mystérieux des navigateurs en ce qui concerne le contenu sécurisé, dans le but de comprendre comment passer du cadenas https “avec avertissement” au cadenas “vert”.

Je n’ai pas encore tout à fait réussi en ce qui concerne la page https://signal.eu.org/osm/, malgré la mise en œuvre de Subresource Integrity.

3. Les cookies

Pour les cookies, c’est encore différent, cela dépend de l’environnement (framework) web que vous utilisez. Concernant WordPress je n’ai pas encore trouvé si/où cela se gérait, pour Django voici ce que j’ai configuré dans le fichiers settings.py :

LANGUAGE_COOKIE_AGE=1209600
CSRF_COOKIE_HTTPONLY=True
CSRF_COOKIE_SECURE=True
SESSION_COOKIE_AGE=1209600
SESSION_COOKIE_HTTPONLY=True
SESSION_COOKIE_SECURE=True

4. One more thing

Enfin, vous pouvez aussi pour tout cela vous faire assister par un autre site proposé par la fondation Mozilla, le générateur de configuration pour serveur web, qui vous conseillera sur la configuration de l’agrafage (stapling) OCSP et certains des points qui précèdent :

https://mozilla.github.io/server-side-tls/ssl-config-generator/

Nul doute qu’il y a des précisions ou corrections à apporter à ce qui précède, si vous le jugez utile n’hésitez pas ci-dessous.

Mise à jour : @_eric_quinton me signale gentiment sur twitter ce document de l’ANSSI : Le nouveau (juillet 2016) “guide de recommandations de sécurité relatives à TLS”. C’est très complet mais très technique, et cela mixe recommandations à destination des administrateurs de site comme à destination des développeurs de suites crypto, ce qui complique la lecture.

fr, Hacks, Trains, Weberies 2.0

Routage ferroviaire pour raildar.fr avec Openstreetmap et OSRM

2014/01/11 Pierre

Pour fêter la nouvelle année, que je vous souhaite à toutes et tous joyeuse et heureuse, voici une petite application web que j’ai écrite récemment pour aider au débogage des trajets de raildar.fr, qui permet d’identifier plus rapidement les problèmes à corriger dans openstreetmap.org. Voir plus bas pour des précisions de fond.

Ça se révèle assez ludique (pour les amateurs de trains).

Voici l’URL temporaire “de travail” chez moi avec un exemple de trajet Londres-Amsterdam :

https://signal.eu.org/osm/?fromto=51.534377,-0.128574,52.379018,4.899988

Pour demander un trajet, on déplace simplement les deux marqueurs et le logiciel de routage se débrouille, et affiche la distance résultante.

En voici une copie d’écran (cliquer pour agrandir) :

Attention, ne bourrinez pas trop sur le serveur, le calcul des routes prend quelques secondes et utilise l’instance OSRM de raildar.fr.

L’application est aussi déployée sur les serveurs de @Turblog (Bruno Spiquel) dans une version un peu moins à jour.

Quelques précisions pour ceux qui ne connaissent pas : raildar.fr utilise les données SNCF de retard, ainsi que la base cartographique openstreetmap.org. openstreetmap.org est en quelque sorte le Wikipédia de la cartographie. Chacun peut y apporter des corrections. En complément, OSRM (Open Source Routing Machine) extrait les différents graphes (routiers, ferroviaires, etc) afin de calculer des trajets de toutes sortes dans le graphe.

Mon application est éhontément dérivée du code initial de raildar.fr (écrit par @Reventl0v, basé sur leaflet et jQuery) auquel j’ai ajouté le décodage de la sortie OSRM.

fr, Weberies 2.0

Fusion (froide) CSA-ARCEP-HADOPI, préservation des anachronismes

2012/10/03 Pierre 3 Comments

La dernière idée en date des lobbyistes de l’industrie du divertissement, très écoutés au ministère de la Culture, date de plusieurs mois mais fait couler beaucoup d’encre depuis la rentrée.

Il s’agit de proposer la fusion de trois éminentes “autorités administratives indépendantes” : CSA, HADOPI et ARCEP, sous prétexte d’accompagner l’évolution technologique (la déferlante Internet qui s’annonce an matière de télévision), mais en réalité dans le but d’en ralentir les effets néfastes sur les situations acquises de l’industrie du divertissement et le contrôle ~~politique~~ “citoyen” sur les média.

Le CSA

D’un côté le CSA (Conseil supérieur de l’audiovisuel) dont la mission consiste à garantir la liberté de communication audiovisuelle en France. Le CSA a été constitué (sous le nom de Haute Autorité de la communication audiovisuelle) en 1982, quelques années après la disparition de l’ORTF, et pour préparer l’arrivée des premières chaînes privées.

Le CSA indique avoir les responsabilités suivantes :

la protection des mineurs
le respect de l’expression pluraliste des courants d’opinion
l’organisation des campagnes électorales à la radio et à la télévision
la rigueur dans le traitement de l’information
l’attribution des fréquences aux opérateurs
le respect de la dignité de la personne humaine, la protection des consommateurs
« veiller à la défense et à l’illustration de la langue et de la culture françaises » sur les antennes
rendre les programmes de la télévision accessibles aux personnes souffrant d’un handicap auditif ou visuel
veiller à la représentation de la diversité de notre société dans les médias
contribuer aux actions en faveur de la protection de la santé
etc [sic]

Une autre page détaille d’autres missions, dont l’attribution des canaux de télévision hertzienne (maintenant TNT), en expliquant que “la contrepartie de cette liberté est l’institution d’une fonction de régulation, chargée d’accompagner ce mouvement et d’en prévenir les éventuelles dérives“.

Je laisse au lecteur le soin de déterminer en quoi les responsabilités qui précèdent ont, ou pas, un rapport avec la mission générale de garantie de la liberté de communication audiovisuelle.

En ce qui concerne par exemple l’organisation des campagnes électorales, on se souviendra de la dernière élection présidentielle avec les débats ubuesques sur les temps de parole comparés, ou les heures autorisées de publication de résultats estimés qui ont toujours circulé sous le manteau et aujourd’hui quasi ouvertement via Internet, les nuages IP ne s’arrêtant pas à la frontière (incidemment j’ai écrit ceci avant de voir qu’un des articles cités en bas se servait du même exemple comme argument en faveur d’une fusion, alors qu’à l’évidence ni une fusion ni une extension des pouvoirs du CSA ne changera rien à la situation, ni à ce que les média étrangers ont le droit de diffuser, ni aux personnes qu’il est possible de poursuivre).

Le CSA tire sa légitimité, ou plutôt sa capacité d’action donc son influence, de la rareté des ressources. Les canaux hertziens de télévision ou radio ne sont pas (ou plutôt n’étaient pas, mais n’anticipons pas) en nombre illimité, et leur attribution nécessite de pouvoir montrer patte blanche et une capacité à les remplir.

L’ARCEP

L’ARCEP quant à elle a pour mission la régulation des télécommunications et des postes, dont l’attribution des ressources rares que sont fréquences hertziennes et plages de numéros téléphoniques. L’ARCEP possède un rôle essentiellement technique et concurrentiel et en aucun cas ne se mêle de régulation des contenus, respectant d’ailleurs en cela le bon vieux modèle OSI d’indépendance des couches.

La HADOPI

La HADOPI, bien connue sur Internet et ici, est proposée également comme partie prenante de la fusion, et ses missions “pédagogiques” sont explicitement téléguidées par l’industrie du divertissement via le ministère de la Culture.

Les mutations de l’audiovisuel

Jusqu’à ces dernières années, les choses étaient simples.

D’un côté la télévision, média grand public aux canaux gérés depuis des décennies par une poignée de groupes bien établis, chapeautés par des autorités dont le dernir avatar en date est le CSA.

De l’autre, Internet, réseau informatique presque confidentiel par comparaison avec la télévision, et dont les capacités techniques permettaient difficilement le transport à grande échelle de contenus vidéo.

En à peine 10 ans, quatre évolutions technologiques ont tout balayé : la vidéo numérique (mpeg…), l’ADSL et le triple-play, la TNT, le P2P.

La TNT est à la fois un succès et un échec. Un succès technologique, puisqu’elle remplace haut la main la télévision analogique et augmente considérablement la capacité hertzienne (dividende numérique, permettant de libérer des fréquences pour le téléphone mobile). Mais un échec en termes de contenus (remplissage avec des séries américaines de seconde zone, difficulté à trouver des opérateurs pour les nouvelles chaînes disponibles) et d’audience, mécaniquement éparpillée sur 5 à 6 fois plus de chaînes, et concurrencée par le développement d’Internet.

La TNP (télévision numérique personnelle), avatar mobile de la TNT, et la radio numérique, sont un échec complet et ne sont pas déployées.

L’ADSL a permis l’augmentation des débits des abonnés Internet, et la diffusion de bouquets télévisés par les fournisseur d’accès. Cette évolution n’avait absolument pas été anticipée par les chaînes de télévision.

Enfin, le P2P, profitant de la vidéo numérique et de l’augmentation des débits, a fourni un moyen d’échange pratique de contenus “à la demande” ou presque, en l’absence d’offre commerciale sérieuse.

La délinéarisation

La délinéarisation, c’est la disparition de la nécessité d’être devant son poste de télévision à l’heure dite pour regarder son émission préférée. Grâce à la numérisation, aux progrès en termes de stockage et de transmission, elle a beaucoup avancé depuis ce que permettait le magnétoscope :

le P2P, précurseur
la VoD gratuite sur Internet (Youtube…)
la VoD payante…
les fonctions d’enregistreur numérique des box ADSL
les divers services de Replay, par les fournisseurs d’accès ou les chaînes elles-mêmes

Et ce n’est qu’un début. Là où aujourd’hui il est possible de retrouver l’émission ou l’épisode que l’on a raté la veille au soir, dans quelques années on pourra demander n’importe quel épisode, dès que les ayants-droit l’auront accepté.

La délinéarisation massive et Internet sont les grands amis des missions principales du CSA :

Ils multiplient à l’infini les sources, assurant le pluralisme qui devient “naturel”
Ils donnent accès à tous ceux qui le désirent à une diffusion planétaire
Ils réduisent la granularité du contenu, faisant disparaître la notion de “chaîne” et rendant caduque celle de “quota”

Sur Internet le CSA ne peut donc se prévaloir d’aucune utilité sur lesdites missions.

À plus ou moins long terme on peut prédire que la délinéarisation va transférer sur Internet l’essentiel des diffusions “en boite” : tout ce qui n’est pas diffusé en direct, émissions, séries, films, etc. La diffusion télévisée garde encore temporairement son intérêt pour la diffusion à grande échelle d’émissions ou événements en direct.

Internet est en train (à 5-10 ans d’échéance) de ~~tuer~~ révolutionner la télévision telle que nous la connaissons, et c’est bien cela qui inquiète l’industrie du divertissement. Pour les sceptiques, voir ceci : MIPCOM : Youtube part à l’assaut de la télévision.

La télévision connectée

Parler de “télévision connectée” pour justifier une fusion CSA-ARCEP-HADOPI, c’est voir les choses par le petit bout de la lorgnette.

Le terminal utilisé n’a aucune importance, si ce n’est savoir qui en maîtrise le logiciel.

Certains brancheront leur télévision sur Internet pour des visionnages en famille, d’autres se contenteront d’une tablette ou d’un téléphone mobile, d’autres encore brancheront l’ordinateur sur la télévision.

Même d’un point de vue de politique industrielle ou protectionniste, cela fait bien longtemps que tous ces matériels électroniques ne sont plus fabriqués en Europe sinon en quantités insignifiantes.

Les Google-TV et Apple-TV ont été des flops mémorables… pour l’instant, mais l’essentiel est là pour diffuser massivement de la vidéo à la demande : les périphériques (ordinateurs, téléphones, tablettes ou téléviseurs améliorés…), l’infrastructure, l’offre commerciale (les app-stores). Seuls les catalogues laissent encore à désirer..

Qu’on ne s’y trompe pas : Google et Apple vont très prochainement être présentés comme les forces à combattre ou à taxer, justifiant protectionnisme législatif et fiscal, mais la fusion CSA-ARCEP vise la régulation des contenus sur Internet au sens large.

La situation à ce jour

On se trouve donc en présence aujourd’hui :

d’un CSA qui voit son pouvoir et sa légitimité s’effriter à mesure que l’audience et les contenus se déplacent de la télévision vers Internet, et qui n’a jamais franchement prouvé son indépendance par rapport au pouvoir politique ;
de conglomérats d’anciens média qui tirent les mêmes conclusions que le CSA, ne comprennent Intenet que comme un danger, et de plus constatent le rétrécissement progressif de leurs recettes publicitaires télévisées ;
d’un pouvoir politique tenté, comme toujours en France, de préserver des situations acquises au détriment de l’avenir, et éventuellement désireux d’économiser quelques postes en réduisant le nombre pléthorique d'”autorités” ;
d’une ARCEP qui défend une indépendance relative mais assez largement reconnue, démontrée notamment lors de l’attribution de la 4e licence de téléphonie mobile.

La proposition de fusion CSA-ARCEP, dont les premières réflexions ont été initiées sous la présidence précédente, vise donc avant tout à tenter de préserver les situations acquises, indépendamment de tout pragmatisme vis-à-vis d’usages et de technologie dont l’évolution n’a pas attendu le législateur. Sans grande surprise, cette fusion est d’ailleurs soutenue par Bouygues (propriétaire de TF1) et Vivendi.

Sur le papier, le CSA a beaucoup à y gagner, avec une extension théorique de ses pouvoirs, un transfert de ceux-ci sur Internet ne faisant que suivre celui des contenus. En pratique, ces moyens ont été pensés à l’ère de la télévision et sont totalement inapplicables sur Internet ; quant à ses missions officielles, elles sont remplies “par construction” sur Internet.

Pour se convaincre de l’impossibilité de gérer Internet comme la télévision, il suffit de se demander s’il semble possible de rendre Internet aussi aseptisé que la télévision française.

La proposition de joindre à cette fusion la HADOPI ne fait que démontrer à nouveau la volonté de mainmise des industries du divertissement.

En revanche l’ARCEP, qui reste la dernière instance à peu près indépendante des industries du divertissement, a énormément à y perdre, et avec elle le citoyen, le consommateur, et toute l’industrie d’Internet.

Des articles en rapport sur la question :

Jean-Michel Planche, Internaute, sur son blog : Fusion et action : réaction
Laurent Chemla, Internaute, chez OWNI : Révélations sur la télévision connectée
Pascal Wilhelm, avocat et Nathalie Sonnac professeure/expert des labs Hadopi/directrice de l’IFP, ~~lobbyistes~~, dans La Tribune : Fusion CSA-ARCEP-Hadopi : le temps de l’action est venu

fr, Geek stuff, Hacks, Weberies 2.0

Petite expérience de DNS et de Twitter avec wikileaks

2010/12/03 Pierre 4 Comments

On a tout à fait le droit de ne pas partager à 100 % les idées et les procédés de Wikileaks, actuellement sur le devant de l’actualité, et certaines de ces critiques sont légitimes. Mais, a contrario, certains des procédés utilisés pour les faire taire ont un petit parfum qui, à titre personnel, me dérange.

L’expérience du jour : wikileaks.org ayant vu son DNS coupé par son hébergeur (problèmes d’attaques, officiellement), les discussions de ce matin sur Twitter consistaient à s’échanger “à la main” les adresses IP des miroirs… pas très pratique. Cette coupure de DNS fait suite à un déplacement du site de chez Amazon, aux USA, vers OVH, un hébergeur français.

Et puis j’ai fait une proposition toute bête qui a bien décollé et j’ai créé wikileaks.eu.org pour accomplir ma part, merci à tous ceux qui ont suivi et qui ont été ajoutés dans cete liste plus générale (section “miroirs DNS”).

Jean-Michel Planche ayant pris la peine de faire un résumé du contexte, je ne vais pas le paraphraser, allez voir son billet.

Voir aussi la lettre de mission d’Éric Besson (à Pascal Faure du CGIET) divulguée par LePost, qui vaut franchement le déplacement. Pour résumer, Éric Besson cherche un moyen d’expulser le site de France.

Un autre billet général chez Authueil sur la censure en général et celle de Wikileaks en particulier résume bien la question.

Et un article d’Écrans (Libération) résume bien la situation à l’exception d’une erreur : FDN n’héberge pas un miroir de Wikileaks, wikileaks.fdn.fr est juste un renvoi DNS suivant la méthode exposée ci-dessus.

Désolé pour ce billet un peu décousu mis à jour au fur et à mesure…

Mise à jour 18h45 : c’est maintenant le nom wikileaks.ch actif depuis ce matin qui est en carafe…

Mise à jour 4 décembre 2h35 : une liste plus complète chez Bluetouff.

fr, Geek stuff, Weberies 2.0

SEO : référencement et liens entrants

2010/11/22 Pierre 5 Comments

Mon billet d’hier sur les experts SEO a eu un succès certain (plus de 1000 visites à ce jour), principalement grâce à un grand nombre de citations sur Twitter. Suite à certains commentaires et après avoir consulté les explications données par certains experts en référencement sur leur propre site, je pense utile de compléter mes explications par quelques considérations sur le système des « liens entrants », aussi appelés « backlinks ».

Google utilise, comme évoqué hier, l’analyse du contenu d’une page pour lui associer des mots clés. Mais l’invention principale de Google, qui lui a permis une bien meilleure qualité de recherche, a été de prendre en compte également les références aux pages indexées faites depuis d’autres pages, établissant un système de pondération appelé PageRank, et ouvertement inspiré du système d’évaluation de l’influence des publications scientifiques (H-number).

Il est donc très efficace pour un site qui souhaite être mieux placé dans les résultats de recherche d’obtenir des liens entrants provenant d’autres sites.

Et c’est là que les choses commencent à se gâter. Car pour obtenir des liens, il n’y a pas des dizaines de solutions :

attendre qu’ils viennent spontanément d’autres responsables de sites ou de pages, grâce à la qualité du contenu ;
en solliciter en tant que relations de « bon voisinage » (le plus souvent en effectuant une proposition réciproque de lien : on appelle cela un échange de lien). Cette technique relève du démarchage commercial ;
en créer soi-même « à la main » en écrivant d’autres pages ailleurs, ou des commentaires sur des blogs comme celui-ci, des forums, etc. On commence à entrer dans la manipulation pure et simple, voire la propagande, le contenu enrobant lesdits liens ayant toutes les chances de n’avoir aucun intérêt, sinon publicitaire ;
en fabriquer plus ou moins automatiquement en créant des pages bidon ou en allant écrire des commentaires sur des blogs pris plus ou moins au hasard. On entre là dans les techniques de spam pur et simple. Ce blog pourtant relativement confidentiel reçoit chaque jour plusieurs dizaines de commentaires-spam, heureusement filtrés plus ou moins automatiquement. Comme son équivalent en courrier électronique, ce spam pourrit la vie des internautes.

L’expert en SEO va donc s’attacher à obtenir des liens par tout ou partie des trois dernières méthodes, suivant l’idée qu’il se fait de l’éthique. On parle de black-hat ou de white-hat (comme en sécurité informatique), comme si les choses étaient binaires, mais en la matière on devrait le plus souvent parler de tons de gris…

Parallèlement, Google, dont le succès repose largement sur la qualité de ses résultats, n’a pas envie de la voir démolie par ceux qui sauront se placer mieux que les autres indépendamment de la qualité ou de la popularité spontanée de leur contenu. Google effectue donc un sérieux travail de nettoyage de ce que chez eux aussi on appelle du spam, et n’hésite pas à descendre dans son classement les sites qui ont abusé un peu trop éhontément des méthodes « créatives » d’obtention de liens évoquées ci-dessus.

Un bon aperçu de ce que cela peut donner a été fourni hier par l’expert en référencement qui a montré son savoir-faire en établissant une page parodique pratiquement vide de contenu, mais portant quasiment le même titre que la mienne, pour la faire apparaître temporairement mieux classée dans les résultats de Google à l’aide de liens entrants obligeamment fournis par ses relations.

Facile ? Oui, comme il l’a dit lui-même, cela ne lui a pris que quelques minutes. Encore bravo à lui, et merci pour cette démonstration, qui apporte de l’eau à mon moulin en mettant en évidence la nature de la contribution à l’écosystème des experts en référencement.

Ajout : un lien très intéressant montrant les limites de PageRank et ce que l’on peut obtenir à l’extrême en SEO, avec une société aux USA qui profite des liens posés par des clients indignés pour être mieux classée et avoir encore plus de clients…

Ajout du 1er décembre 2010 : autre lien qui fait suite au précédent, qui montre que ce genre de problème ne fait pas du tout, mais alors pas du tout, rigoler Google, qui a été spectaculairement réactif sur ce coup-là. Chapeau.

fr, Geek stuff, Weberies 2.0

Optimisation du référencement sur moteur de recherche : le SEO est-il une arnaque ?

2010/11/21 Pierre 39 Comments

Le dernier métier à la mode est celui de rebouteux-web, aussi appelé (expert en) SEO pour Search Engine Optimization, littéralement optimisation pour moteurs de recherche. En français on parle plutôt de référencement ; et principalement il s’agit d’être référencé sur Google, c’est à dire être bien placé dans les résultats de ce moteur, de préférence sur la première page, et idéalement en première position.

Vu la polémique provoquée par une page concernant les pratiques du SEO rédigée par Stéphane Bortzmeyer cet été, qui s’est fait violemment prendre à partie par les professionnels de la profession, j’ai souhaité effectuer une petite démonstration pour en avoir le coeur net.

La technique de base du SEO est très simple : trouver une combinaison de mots-clés qui soit à la fois en rapport avec la page à référencer, et rare (voire inexistante) dans le reste du web. Puisque Google donne lui-même dans ses résultats le nombre de pages contenant les mots-clés demandés ou des variations de ceux-ci, évaluer leur fréquence est extrêmement facile. L’utilisation de plusieurs mots-clés dans une recherche privilégie très fortement les pages qui les contiennent tous. Plus les mots clés utilisés sont rares, plus on peut limiter leur nombre. Un voire deux mots-clés très rares peuvent suffire à placer une page en première position sur Google.

C’est Google qui choisit lui-même les mots-clés pour indexer une page. Comment procède-t-il ?

d’abord, il utilise naturellement le texte de la page indexée.
ensuite, il complète par les mots trouvés dans le nom de domaine (la partie qui suit http://, jusqu’au / suivant)
enfin, il ajoute les mots trouvés à droite du nom de domaine, qui donnent l’adresse de la page au sein du site.

Le poids de ces différents éléments est variable, non dévoilé par Google (cela fait partie de leur sauce secrète). On peut supposer que le nom de domaine a un poids élevé, suivi par l’URL [MàJ : en fait pas tant que ça, cf les rectifications en commentaires] et le titre, les mots du contenu ayant un poids moindre, mais il existe des ajustements pour éviter que le système soit trop facilement exploitable par des spammeurs.

N’importe quelle personne rédigeant un blog apprend vite ces notions simples. Inutile d’être un « expert en SEO ».

Un court exemple valant mieux qu’un long discours, j’ai choisi quelques mots-clés pour voir si cela fonctionne. D’abord, des mots-clés liés au référencement : référencement, SEO, optimisation, arnaque, Google, moteur, recherche, web. Parmi ces mots-clés, à ce jour le plus fréquent est web (2,5 milliards d’occurrences !), le moins fréquent est moteur (66 600 occurrences seulement). Le second moins fréquent est arnaque.

Puis j’ai choisi les trois mots-clés les moins fréquents dans la liste qui précède : arnaque, optimisation, moteur pour les placer en titre de cet article. Il a fallu compléter pour que cela constitue une phrase, j’en ai profité pour utiliser d’autres mots-clés cités. Opportunément, le logiciel WordPress qui propulse ce blog utilise le texte du titre pour constituer l’URL. Rien de plus à faire de mon côté, donc.

Ensuite, j’ai choisi au hasard 3 mots dans le dictionnaire : eupatoire, contraction et dyspepsique. Ces mots sont tellement rares (notamment eupatoire) que cette page doit probablement être la seule du web (pour l’instant) à les contenir tous les trois…

Enfin, pour compléter cet essai, j’ai inventé un mot en tapant au hasard : xkvqoiikjbzrjwqdcqsd.

Vous pouvez vérifier par vous-même le classement de la page en effectuant des recherches sur des combinaisons des mots clés qui précèdent.

Tout cela, écriture de ce texte comprise, m’a pris environ 20 minutes. Évidemment, il s’agit d’un exemple simplifié, destiné à mettre en évidence les mécanismes principaux en oeuvre.

On comprend bien qu’un expert en SEO ne peut décemment pas avouer à ses clients qu’il leur facture plusieurs centaines, voire milliers d’euros, pour un travail aussi simple. Il va donc délayer la sauce avec des techniques qui, au mieux, s’apparentent plus à l’imposition des mains ou au placebo (très bien caricaturées ici), ésotériques à souhait, et au pire relèvent du spam pur et simple contre lequel Google lutte pour préserver la qualité de ses résultats. Le but est de bien montrer que le spécialiste, c’est lui, et que ses services valent le prix élevé auquel il vous les facture.

Et l’intérêt de la page, dans tout ça ? Eh bien, personne ou presque n’en parle, à part les vendeurs honnêtes de SEO, bien que cela soit le plus important au final. Cette technique étant applicable aveuglément pour être relativement bien référencé, personne ne se soucie de la qualité du contenu. Le SEO finit par devenir une fin en soi, proposée par de mauvais professionnels à de mauvais clients…

Une fois la page référencée par Google, j’ajouterai ici les mots-clés qui permettent de la faire apparaître en bonne position dans une recherche. Évidemment, ces résultats seront susceptibles de varier au fil du temps ; encore une bonne raison pour les experts en SEO de facturer leurs services de manière récurrente…

Mise à jour : voir aussi mon article complémentaire, SEO : référencement et liens entrants.

fr, vie privée, Weberies 2.0

Le quart d’heure d’anonymat

2010/03/09 Pierre

Du quart d’heure de célébrité « inventé » par Andy Warhol en 1968, on arrive maintenant, avec Internet et les réseaux sociaux au quart d’heure d’anonymat suggéré par Jean-Marc Manach. Un article qui résume bien la question telle qu’elle se pose aujourd’hui, avec la nécessité pour chacun de devenir son propre « dircom » et de s’auto-aseptiser.

Extraits :

Comme le souligne danah boyd, chercheuse ès médias sociaux, “la vie privée n’est pas une technologie binaire que l’on peut allumer ou éteindre” :

“La vie privée renvoie au fait de pouvoir contrôler la situation, de pouvoir contrôler quelle information va où, et d’avoir la possibilité d’en réajuster le flux de manière appropriée lorsque l’information déborde ou va trop loin. Les gens se préoccupent de leur vie privée parce qu’ils ont peur d’en perdre le contrôle.”

[…]

Le problème, c’est que le statut de “personnalité publique“, après avoir longtemps été réservé à un nombre restreint de privilégiés, est aujourd’hui accessible à tout un chacun, en quelques clics. Or, s’inquiète danah boyd, “les conséquences sociales, considérables, de ce changement de paradigme ne seront jamais assumées par les geeks de la Silicon Valley qui en sont responsables” :

“Certains d’entre eux voudraient forcer tout le monde à accepter ce changement culturel où la vie publique serait la nouvelle norme sociale. Je ne pense pas que ce soit très raisonnable, et ne pense pas non plus que c’est ce que réclament les gens.

Ce n’est pas parce que certains ont compris qu’ils pouvaient gagner quelque chose à s’exposer que tout le monde en a envie. Et ça ne veut pas dire, non plus, que la “vie privée” n’a plus de valeur. Il faut leur donner la possibilité de se protéger, et de faire face aux conséquences que cela entraînera.”

Signal