Semalt, le crawler qui s’invite dans les statistiques
Les web masters et de nombreux propriétaires de site ont pu constater la venue du crawler ou bot nommé Semalt.com dans le compte rendu Google Analytics (GA) ainsi que sur d’autres analyseurs de statistiques de site internet.
Semalt, les questions à se poser
Semalt nuisible ou inoffensif? Quelles seront les conséquences si je le laisse explorer mon site internet par ce crawler? Semalt c’est quoi? Que propose cette société? Semalt c’est qui? Faut-il l’empêcher d’accéder à votre site? Faut-il le bloquer?Faut il supprimer Semalt des statistiques?
Conséquences: Semalt le crawler qui fausse les statistiques
L’omniprésence de semalt.com dans les statistiques de trafic peut être perturbante pour certain web master. Le passage fréquent de ce bot joue les troubles fêtes en faussant les statistiques, de plus il fait exploser le taux de rebond avec une durée moyenne par visite de quelques millisecondes. L’attitude de ce crawler permet un juste questionnement à son sujet.
Semalt c’est quoi?
Le projet Semalt semble être un outil professionnel d’analyse d’acquisition de trafic dédié aux web masters. Selon la firme le système ouvrirait, contrairement aux autres outils du marché, des portes à de nouvelles opportunités pour la surveillance du marché est des concurrents?!
Semalt: une politique web-marketing agressive
La politique web-marketing, les campagnes promotionnelles à tous niveaux ( inclus la mise en place du crawler semalt), les arguments de dénigrement de la concurrence sont d’une extrême agressivité. Le douzième membre du Team de Semalt est représenté par une tortue de Floride nommée « Turbo ». Cette mascotte illustre parfaitement l’état d’esprit vorace et agressif de l’entreprise.
Semalt dangereux, nuisible ou inoffensif?
Semalt Dangereux? le Team a mis en place un robot qui parcourt le web pour recueillir des informations présentes dans nos sites internet, tout comme Google, direz-vous! Ces données sont certainement utilisées pour pour alimenter la, les bases de données du projet d’analyses Semalt, tout comme Google qui alimente ses bases de données avec le contenu de nos pages web.
Les données collectées par Semalt servent probablement à améliorer les algorithmes du produit d’analyses qu’il vendent, tout comme Google, à la différence prête, qu’ en règle générale nous confions volontairement et gracieusement nos données à la firme de Mountain View (Californie) ou de Redmond (pour Bing de Microsoft, siège, état de Washington).
Le danger Semalt
S’ il existe, le danger pourrait être là! Il faut poser la question suivante: A quelles autres fin le Team Semalt utilise-t-il cette moisson d’informations? La réponse n’est pas très clair! Dans ce cas ne vaut-Il pas mieux prévenir que guérir? une bonne option est d’appliquer le principe de précaution, considérer le robot Semalt comme non inoffensif?
Semalt c’est qui?
Une société Ukrainienne qui propose un outils d’analyses de site web du type GA (Google Analytics). Elle composée d’une douzaine de membres, la tortue « Turbo » y compris. Le siège social se trouve à Kyiv (Ukraine), le support et le centre de presse sont basés à Sarasota en Floride, États-Unis.
Comment bloquer Semalt.com?
Il existe plusieurs méthodes pour bloquer le crawler de Semalt.com
Bloquer semalt.com avec le fichier .htaccess
Méthode 1: Pour bloquer Semalt.com, servez-vous du fichier d’instructions serveur web (Apache) .htaccess qui est placé à la racine du répertoire de votre domaine (ou sous domaine). L’ajout de 2-3 lignes d’instructions (2 lignes selon ce qui est déjà présent dans votre fichier), mettra un terme aux fréquentes visites de l’importun et rétablira de l’ordre dans vos futures statistiques.
Selon le gestionnaire web ou CMS et le type de modules présents, il est possible d’éditer et d’enregistrer la modification du fichier .htaccess directement dans la console d’administration de votre système de gestion de votre site internet.
Si vous pouvez pas éditer le .htaccess avec la méthode précédemment décrite, servez-vous de votre FTP.
- Téléchargez le fichier .htaccess
- faites en une sauvegarde, pour éventuellement restaurer le fichier d’origine en cas de plantage (Erreur 500, par ex.)
- ouvrez le avec votre bloc note préféré ou avec par ex. Notepad++ qui est excellent éditeur multifonctions gratuit
- coller les lignes du code .htaccess qui suivent à la fin des instructions présentes
- enregistrez et écrasez le fichier existant, évitez les erreurs avec enregistrer sous …
- renvoyez le .htaccess sur le serveur, à la racine du dossier cible
- écrasez l’ancien fichier .htaccess présent sur le serveur
Note importante: L’instruction « RewriteEngine on » ne peut être présente qu’une seule fois par fichier .htaccess. Si elle est déjà présente, ignorez la ligne « RewriteEngine on » du code si dessous. Dans ce cas, recopiez que les 2 lignes restantes (en vert) mise à part la ligne de commentaires qui commence par un dièse (#).
# block visitors refered from semalt.com‹IfModule mod_rewrite.c›RewriteEngine on...RewriteCond %{HTTP_REFERER} semalt\.com [NC]RewriteRule .* - [F]‹/IfModule›
Voilà, le tour est joué, le crawler est bloqué à partir de maintenant.
Bloquer le crawler avec le formulaire du site web Semalt.com
Méthode 2: Se rendre sur le site du bot indésirable à l’adresse Semalt project crawler, remplir le champ proposé avec l’adresse Url à exclure, cliquer sur « Retirer » (Remove).
Cette méthode semble sympathique, elle fonctionne parfaitement, n’est pas rétroactive. Faut-il lui accorder du crédit? Nous n’avons pas de réponses, dans le doute, préférez la 1ere méthode (exclusion avec fichier .htaccess).
Filtrer Semalt dans Google Analytics
Méthode 3: Cette manière de faire consiste simplement à filtrer semalt.com dans les statistiques de Google Analytics (GA).
Mettez en place un filtre d’exclusion et les requêtes du crawler seront simplement ignorée par l’outil de statistiques.
Les règles et procédures de filtrages étant similaires aux autres analyseurs de trafic seule la méthode GA (Google Analytics ) sera évoquée. Pour filtrer les visites provenant du robot de Semalt, il faut créer un filtre dans GA.
- se connecter à sont compte Google Analytics
- menu principal, cliquer sur admin
- à droite, dans la section vue sélectionner, « filtre »
- cliquer, nouveau filtre
- donner un nom au filtre, par ex. No-Semalt
- choisir la puce, *Filtre personnalisé »
- type sélectionner, « Exclure » (par défaut)
- champ de filtrage, liste déroulante, contenu et trafic sélectionner « Site référent »
- règle de filtrage, semalt\.com. Attention de ne pas oublier la barre oblique inversée (\) qui doit se trouver après le nom de domaine et avant le point du TLD
- enregistrer
Voilà c’est tout.
Inconvénient: méthode non rétroactive, le filtrage débute qu’à partir de la date d’application du filtre.
Méthode 4: Créer un segment avancé sur Google Analytics permet de ne pas prendre en compte tout le trafic provenant du crawler Semalt. Avantage: cette méthode est rétroactive, ce qui signifie que tout le trafic antérieur sera filtré, Semalt devient en quelque sorte invisible.
Pourquoi enlever semalt!
Méthode 5: Les visites du robot de Semalt.com ne gêne pas plus que ça? Alors cette solution est pour vous! Elle consiste simplement à ne rien faire. Pourquoi enlever semalt! Pourquoi perdre du temps pour ce robot? Chacun est libre de procéder comme bon lui semble!
Pour en terminer avec le robot Semalt!
Aucune des méthodes présentées n’ont la prétention d’être parfaites, elles sont justes complémentaires.
La solution par blocage via .htaccess semble à tous points de vues la plus indiquée, car elle est rapide et aisée à mettre en œuvre, elle bloque directement l’accès au robot du site déclaré. En effet, les 2-3 lignes d’instructions .htaccess ont l’avantage de bloquer n’importe quel site référent en remplaçant semalt\.com dans la commande RewriteCond %{HTTP_REFERER} xxx\.xx [NC] par l’adresse d’un autre site référent.
Les autres méthodes sont des solutions alternatives adéquates si:
- vous n’avez pas accès au fichier .htaccess
- vous ne vous sentez pas capable de modifier ce fichier serveur par manque de connaissances
En savoir plus sur le fichier .htaccess