jeudi, mai 04, 2006

Dix mots qu'on sent

Pour avoir vu combiens certains d'entre vous rament avec les balises du HTM et du XML, j'ai décidé d'inaugurer une nouvelle série de post ayant trait à la technique du Web. Je vais essayer d'être vulgaire, ou plutôt de vulgariser mais vous voudrez bien m'excuser si je me lance dans des digressions techniques un peu obscure. Vous y trouverez des articles assez long sur la théorie ou le fonctionnement et d'autre très court sur une petite astuce ou un truc qui facilite la vie.
Pour aujourd'hui, il s'agira d'un article assez long, s'il vous barbe, regardez les gros titres et sous titre et zappez si vous pensez savoir. Comme personne n'est infaillible et qu'il m'arrive comme personne de dire des conneries plus grosses que moi, je vous invite à me corriger dans les commentaires.
Maintenant passons au coeur du sujet :

Le référencement : 10 mots pour se définir.

Internet est un formidable moyen de communication. Il offre aux groupements comme aux particuliers, pour un investissement très faible, le moyen de toucher des millions de personnes. C’est ainsi que le Web met à disposition de tout un chacun des milliards de fichiers informatiques contenant tant du texte que des images, du son ou des animations. On compte actuellement près de 19 millions de sites Internet ce qui représente près 7 millions de pages nouvelles chaque jour.
De cette surabondance d’informations quelques fois contradictoires est née l’expression « Surfer sur le Web ». Cette locution représente bien la difficulté que représente la localisation d’une information précise dans cet environnement changeant de plus de deux milliards de pages. A suivre une vague d’information, on en perd parfois sont objectif premier.

Il existe toutefois des outils génériques qui permettent d’écumer cet océan pour restreindre le champ d’une recherche. Ils sont classifiés en deux grandes catégories : Les annuaires et les moteurs de recherche.

Les annuaires
Ce sont des outils de recherche qui recensent et classifient un certain nombre de sites au travers de fiches descriptives comprenant en général le titre du site, son adresse Internet et un bref descriptif de 15 à 25 mots. On accède à cette fiche soit au travers d’un cheminement arborescent de rubriques (Exemple : Société - Economie.- Automobile - Constructeur), soit par recherche des occurrences d’un terme dans la fiche descriptive. Il s’agit là de la plus grosse différence entre les annuaires et les moteurs de recherche. La recherche dans un annuaire porte sur la fiche descriptive, alors que pour un moteur la recherche porte sur la totalité du document.

Les moteurs de recherche

Les moteurs de recherche fonctionnent sur un concept radicalement différent. Des robots logiciels scrutent le Web en allant de page en page, de lien en lien en aspirant (c’est à dire en sauvegardant le contenu des pages) et en constituant des index. Un index est une collection plus ou moins grande de pages classées selon les occurrences des termes qu’elles contiennent. Les index des plus grands moteurs de recherche mondiaux peuvent engranger plusieurs centaines de millions de pages classifiées selon leur nature (Images, texte, son, vidéo…) mais aussi selon leur contenu.
Lors de la recherche d’un mot-clef, ce moteur va fabriquer un « lot » à partir de l’index. Un « lot » est un ensemble de pages classées selon l’ordre descendant de pertinence. C’est à dire en fonction du nombre d’occurrence du mot-clef dans leur contenu. La pertinence se calcule aussi en fonction de la position du terme dans la page. Si ce terme est trouvé dans le titre du document, celui-ci aura plus de poids que s’il est cité en fin de document. De même, dans les fichiers dit enrichis, certaines balises permettent de définir une dizaine de mots clef qualifiants le contenu des pages.

Les principaux annuaires

Les principaux annuaires francophones sont :
Yahoo ! France
Voilà
Nomade.fr
Lycos France

Au niveau mondial, ils sont trois à se partager le Web :
Yahoo !
Looksmart qui fourni l’annuaire de Altavistaou MSN
Open Directory, le plus important qui fourni aussi Hotbot, Lycos, Google, AOL

Les principaux moteurs
Les principaux moteurs de recherche sont très peu nombreux contrairement à ce que l’on croit :
Altavista
Google qui fourni son index à Yahoo ! ou AOL
Inktomi qui fourni sont index à Hotbot, Looksmart ou MSN
Fast/ All the web. Qui fourni sont index à Lycos, Nomade ou Club Internet
A noter l’index du site francophone Voilà qui fourni Wanadoo.

A l’ombre de ces géants de l’information vivent ou survivent des annuaires ou des moteurs de recherche plus spécialisés comme http://www.intracite.net/ ou http://www.sortir59.com/, deux annuaires à vocation géographiques ou encore http://www.legifrance.fr/ ou http://www.cdcovers.com/ des moteurs spécialisés dans la législation française pour l’un et les couvertures de CD pour l’autre.
Malheureusement, ces outils sont des programmes informatiques et s’il leur est assez facile de distinguer un fichier de son, d’une image ou d’un texte, il leur est par contre difficile de faire la part dans un fichier de texte de ce qui tiens du sujet de ce qui est de la digression artistique.
Ce n’est pas le moindre des problèmes. La quantité d’informations pour un terme donné est telle qu’un internaute visite que très rarement toutes les pages proposées en réponse à une question. Il va rarement au-delà de la dixième réponse, cela pour deux raisons ; soit il y trouve exactement ce qu’il recherche, soit il desespère et modifie le ou les mots clefs correspondant à sa question ou encore change de moteur de recherche. Il est donc primordial tant pour les moteurs que pour les gestionnaires d’un site de positionner ou de placer son site dans les dix premiers d’un lot avec le maximum de pertinence, d’autant qu’il s’y trouve en général avec ses concurrents directs dans le cas d’une entreprise commerciale. D’où l’importance primordiale d’un bon référencement.

Le référencement

Les références

C’est l ‘étape la plus importante dans la constitution d’un site et pourtant la plus souvent bâclée. Certaines études sur le référencement indiquent que seules 20 à 30% des pages du Web contiendraient des références, et encore pas toujours très pertinentes.
Le référencement exige une introspection très poussée et un travail de fourmies sur chacune des pages d’un site.
Le résultat de cette introspection doit se retrouver dans les trois balises de description d’une page.
Les balises

Il faut savoir que la grande majorité des documents présents sur Internet sont disponible dans le format HTML(Hyper-Text Meta Language). Ce format permet aux logiciels de navigation d’Internet de mettre en forme la texte, les images et les sons qui lui sont communiqués. Ce langage est basé sur la notion de balise. Une balise est un ordre qui ne doit pas s’afficher mais doit être interprété par la machine. Ces balises se reconnaissent aisément car elles commencent par le caractère <>. Chaque balise ouverte doit être fermée par une autre balise du type . Ces balises qui ne sont pas visibles directement peuvent être étudiées grâce au menu " AFFICHAGE - SOURCE" de votre navigateur qui vous montre réellement les informations telles qu’elles ont étées reçues.
Le titre de la page ou du site.
(Attention le caractère . est destiné à éviter la disparition de l'affichage de la balise)
La balise informatique <.TITLE.> indique le titre de la page.
Cette balise reçoit trop souvent des informations génériques sans aucun rapport avec le contenu de cette page ou du site.
Ainsi, le titre le plus souvent rencontré est « Page d’accueil du site X » qui n’offre qu’un seul mot réellement significatif sur 6. De plus ce mot ne fera l’objet d’une recherche que de la part des internautes connaissant la marque X. Un test réalisé sur les pages francophones recensées par Altavista France indique que plus de 21 891 sites se présentent ainsi. Pourtant les termes utilisés dans cette balise ont un poids prédominant dans la constitution de l’indice de pertinence.
Une bonne balise <.TITLE.> doit avoir un minimum de mots pour un maximum de significatifs. On conseille généralement 7 à 10 mots dont plus de la moitié significatifs.
Par exemple : <.title.>AC Automobiles Citroën<./title.> qui sur trois mots en possède 2 de significatifs pour une recherche. Tout ce qui est écrit entre la balise <.TITLE.> et la balise <./TITLE.> sera inscrit en titre sur la fenêtre du navigateur.

La description.
La description d’un site ou d’une page se fait par l’intermédiaire de la balise :
<. META name="DESCRIPTION">
Lors de l’affichage du résultat d’une recherche la totalité de la balise Meta Description est affichée. Elle sert à expliquer à l’internaute le titre de la page. C’est elle qui sera lue et provoquera la visite du site. On préconise une phrase claire de 15 à 25 mots ou pour être plus précis de 150 à 200 caractères puisque la plupart des moteurs de recherche limitent l’indexation du résumé. Là encore il vaut mieux mettre un maximum de mots significatifs tout en donnant un sens au résumé avec si possible des signifiants différents de ceux employés dans le titre afin d’augmenter les chances d’utiliser un des termes employés par l’internaute client. Lorsqu’elle fait défaut, la page ou le site sera absent d’un annuaire et un moteur de recherche n’affichera qu’un morceau du texte dans lequel elle trouvera le terme recherché. Ainsi dans l’exemple précédent, l’entreprise Citroën à oubliée sa balise Description et n’apparaît dans les moteurs de recherche qu’avec la description suivante :
AC Automobiles Citroën ... par son réseau commercial (concessions, succursales et agents). Vous y trouverez également l'actualité de la Marque aux chevrons ainsi que les résultats sportifs de la Xsara WRC en Championnat du ...
Ce qui n’est pas très clair pour une entreprise aussi importante et ne laisse en rien imaginer l’intérêt du site.

Les mots clefs

La dernière balise sur laquelle il faut se pencher est la balise :
<.META NAME= "Keywords">
Si la balise description est très importante dans le cas des annuaires, dans le cas d’un moteur de recherche, c’est la balise Keyword qui prime. En effet, lors de l’aspiration d’un site, les mots clefs listés dans cette balise serviront de points d’entrée dans l’index. Elle permet de positionner le site ou la page dans l’index pour des termes qui ne sont pas obligatoirement présent dans le contenu informatif du texte. Si l’on admet jusqu'à 100 mots clefs par page ou plutôt 1000 caractères, cette quantité n’est pas si importante car il faut tenir compte des diverses orthographes des mots les plus importants : Le pluriel ou singulier, les minuscules ou majuscules, le masculin/féminin, la présence ou l’absence de caractères accentués et même les plus courantes fautes d’orthographes selon le public que l’on désire atteindre.
Ainsi pour notre exemple, la société Citroën a choisi les mots clefs suivants :
<.Meta name="keywords" content="citroën, citroen, auto, automobiles, vehicules neufs, gamme c, c, saxo, c3, c3 pluriel, pluriel, xsara picasso, picasso, xsara, xara, c5, berlingo, c8, vehicules occasion, occasions, toutes marques, eurocasion, peugeot, renault, ford, fiat, opel, voiture collaborateur, actualites auto, sport auto, wrc, xsara wrc, rallyes, promos, promotions, affaires" />

Les autres balises

Il existe beaucoup d’autres balises informatiques mais seules deux autres sont exploitées par les moteurs de recherche : <.META NAME= "ROBOTS">
La balise qui sert à indiquer quelles pages doivent être aspirées par les logiciels des moteurs de recherche (SPIDER) et quelles pages ne doivent pas figurer dans les index.
<.META NAME="ROBOTS" contents= "AINDEXER,follow"> ou
<.META NAME= "ROBOTS" contents= "PASINDEXER,nofollow">
Ainsi si la page contient un lien vers la page PASINDEXER, cette page ne sera pas visitée par contre la page AINDEXER le sera même s’il n’existe pas de lien vers elle.

Enfin la balise qui n’est prise en compte que par le moteur HOTBOT.
<.META NAME= "author">
Elle sert à préciser l’auteur de la page et éventuellement placer quelques mots clef pour ce moteur.
Exemple : : <.META NAME= "author" contents="Studio de créations graphiques et artistique Tartenpion">
Soit quatre termes de plus pour le moteur HOTBOT.

L’inscription

Une fois les références placées l’opération de référencement n’est pas terminée. En effet, il ne suffit pas à un site d’exister pour être visible par les annuaires et les moteurs de recherche. Il faut déclarer l’existence de ce site auprès des annuaires ou des moteurs. Cette déclaration peut être faite par une entreprise spécialisée dans le référencement ou directement auprès des annuaires ou des moteurs. Cette opération qui fût très longtemps gratuite devient peu à peu payante et surtout chère.
Une inscription pour un référencement direct sur AltaVista coûte près de 169euro HT alors que dans le même temps la société HITSME propose sur son site http://www.hitsme.com/ le même référencement gratuit. Il en existe beaucoup d’autres, n’importe quel moteur de recherche vous en donnera la liste. Alors avant de faire appel à une entreprise payante, réfléchissez. De deux choses l’une, ou bien l’intérêt de votre site pour la communauté est évident auquel cas cette opération peu se faire simplement et surtout gratuitement par l’intermédiaire des liens. En effet, il suffit qu’un seul site déjà référencé pointe un lien sur une de vos pages pour que celle-ci soit automatiquement aspirée par le moteur qui la visite. Ou bien votre site est d’un intérêt plus confidentiel auquel cas il vaut mieux figurer dans des annuaires ou des moteurs spécialisés qui sont très friands de nouveauté à moindre coût.
La différence de prix est essentiellement due à la notion d’urgence. En effet, une inscription directe auprès d’un grand moteur de recherche vous garantie un référencement dans les 48 heures alors que les autres méthodes sont plus aléatoires. Ors pour certaines campagnes, tant politiques que cormerciales, la nécessitée d’un positionnement rapide sur Internet est évidente et justifie le surcoût.
De toutes façons, en dernier ressort, les internautes sont les décideurs et si le contenu de votre site les intéressent, ils le référenceront tout seuls. On estime que 50 à 100 sites nouveaux sont évalués chaque jour par les internautes qui s’ils en rejètent près d’un tiers pour les autres forcent les annuaires majeurs à les intégrer. En effet des annuaires comme Yahoo ! ou Nomade cherchent à éviter que leurs internautes ne décrochent vers d’autres annuaires en intégrant gratuitement les sites que les internautes proposent.
Attention, aucun annuaire majeur n’acceptera un site qui lui est soumis s’il n’est pas terminé, creux, sans contenu ou s’il n’est accessible que sur mot de passe. De même, s’il devient obsolescent, il disparaîtra.
Le délai moyen d’affichage d’une page revert aussi un caractère rédhibitoire.

Les fraudes et la loi

Dans ce monde hautement concurrentiel plusieurs techniques de référencement sont considérées comme du SPAM(de la fraude) par les annuaires et moteurs de recherche.
Il existe deux grands types de spam.

Le spam au positionnement :

Cela consiste à tout faire pour placer un site en premier dans un « lot ».
En trichant sur le nom du site, comme dans notre exemple la société Citroën a appelé son site AC Citroën au lieu de Citroën, certains s’appellent 123-Tartempion ou ABC-Bidule.
Ou en augmentant artificiellement la pertinence de certains mots dans un document : Ecrire X fois le même mot en blanc sur fond blanc sur une page pour accroître son poids dans le « lot » et le faire apparaître en début de liste.

Le spam aux entrées :

Cela consiste à tout faire pour placer un site dans un maximum de « lot ».
En trichant sur la liste des mots-clef comme dans notre exemple, la société Citroën utilise le nom de ses concurrents pour être présent à l’appel de leur nom : peugeot, renault, ford, fiat, opel.
En multipliant les points d’entrées dans le site : En effet, rien n’empêche sur un site de créer X pages ne contenant que des titres et des mots clef qui une fois chargées déclenchent le chargement d’une seule et même page qui est le seul point d’entré réel du site. Ainsi la même page peut apparaître dans un annuaire ou un moteur de recherche comme appartenant à X sites différents.

La loi

Certains sites sont illicites dans certains pays, dont le nôtre. En France, les sectes, les Hackers, les pédophiles et les néo-nazis sont interdits. C’est pourquoi les moteurs de recherche comme les annuaires rejèterons tout site y faisant référence sur le territoire national.

La punition

La punition est simple. Pour le spam au positionnement, il ne faut pas prendre les gestionnaires d’annuaire et les concepteurs de moteurs de recherche pour des truffes, ils connaissent bien ces techniques et souvent suppriment purement et simplement le site de leur index, limitant du même coup la visibilité du site sur le net. C’est donc une technique à éviter. Pour le spam aux entrées multiples, ce sont les internautes qui à force de se retrouver sur le même site finissent par le boycotter. Quant au spam à la concurrence, il est traité de la même façon qu’un spam au positionnement car les gestionnaires des moteurs ou des annuaires n’aiment pas perdre de leur pertinence en proposant un site dans un lot qui ne les concernent pas d’autant qu’ils proposent souvent à ces entreprises ce que l’on appelle un positionnement publicitaire. C’est à dire la présence d’une publicité en tête de la réponse si la question contient certains mots clef.

L’exemple Citroën
Extrait du source de la page d’accueil du site Citroën.fr , l’exemple de ce qu’il ne faut pas faire :
<.head>
<.title>AC Automobiles Citroën<./title>
<.meta name="keywords" content="citroën, citroen, auto, automobiles, vehicules neufs, gamme c, c, saxo, c3, c3 pluriel, pluriel, xsara picasso, picasso, xsara, xara, c5, berlingo, c8, vehicules occasion, occasions, toutes marques, eurocasion, peugeot, renault, ford, fiat, opel, voiture collaborateur, actualites auto, sport auto, wrc, xsara wrc, rallyes, promos, promotions, affaires" />

L’exemple Renault
A titre comparatif, extrait du code source de la page d’accueil du site Renault après sa campagne de référencement :
<.head>
<.title>Bienvenue sur le site international de Renault<./title>
<.META NAME="Description" CONTENT="Site institutionnel international du groupe Renault. Le constructeur automobile propose un accès aux différents sites du groupe et présente ses voitures et ses véhicules utilitaires.">
<.META NAME="Keywords" CONTENT="Renault, site corporate, site internet, site officiel, site portail, site web">
<.META NAME="Robots" CONTENT="index,follow">
<.META NAME="Revisit-after" CONTENT="14 days">
<.META NAME="Author" CONTENT="Groupe Renault">
La balise Revisit-after précise au robot qu’il n’y a une mise à jour du site que tous les 14 jours.


eXTReMe Tracker