1 24-03-2020 00:05 -

Bonjour à toutes et à tous,

J'aimerais avoir vos commentaires en rapport avec Les bots sur internet: Selon vous, lequel des fichiers ou mod suivants est le plus performant?

Fichiers:
           robots.txt
           tngrobots.php (qu'on retrouve dans le TNG)

Mod:
           bots trap

Lequel utilisez-vous?
Peux-ton avoir un exemple?

Merci et toute aide de votre part est serait bien appréciée

2 24-03-2020 01:09 -

Bonsoir Normand !

Robots.txt, je ne m'en suis jamais servi sur un TNG. Pas eu besoin. Sauf que le mien a été modifié par le mod Bot-Trap.


Mais à quoi sert ce fichier ? robot.txt restreint l'accès des robots d'exploration à certaines pages. Les robots sérieux respectent les instructions, même si elles ne sont qu'indicatives puisqu'elles peuvent être contournées.

Les fichiers robot.txt génériques vont interdire l'exploration de certains répertoires et donc l'indexation de certaines urls qu'il serait parfois intéressant de libérer. Google donne la liste des urls qu'il n'indexe pas parce que c'est interdit par robot.txt.

On pourrait donc supprimer certaines lignes, voire même le fichier tout entier, comme le recommande Google Outils pour Webmestre, si l'on n'a rien à protéger contre l'indexation.

Les pages qui sont inaccessibles pour Google, soit protégées par mot de passe, comme des pages réservées aux membres, soit interdites d'indexation aux moteurs de recherche par le fichier robots.txt, ne pourront pas non plus être traduites par l'outil de traduction en ligne Google Translate.

Google indique pourquoi une page interdite d'accès par robots.txt n'a pas de description quand elle sort dans ses résultats de recherche avec le le message suivant : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus..."


Le fichier robots.txt peut avoir pour utilité d'indiquer aux robots l'existence et l'adresse d'un site map. En ajoutant dans robots.txt une ligne avec cette syntaxe :
SITEMAP: http://votre-site.fr/sitemap.xml

Un sitemap (ou plan de site pour les robots) répertorie les urls d'un site.

3 24-03-2020 01:36 -

Je ne m'en suis jamais occupée, je ne savais même pas qu'il existait.
Selon le wiki de TNG c'est un fichier qui va classer les pages entre :
- celles qui doivent être indexées par les moteurs de recherche et dont les liens qu'elles comprennent doivent aussi être visitées et indexées
- celles qui doivent être indexées sans indexer les liens
- celles qui ne doivent être pas être indexées et dont les liens ne doivent pas être suivis.

Ce fichier va donner des instructions aux robots à la place, je crois, de robots.txt.

4 24-03-2020 01:48 -

ça sert à éloigner les robots malfaisants et qui refusent d'appliquer les instructions de robots.txt.
Ces robots désobéissants peuvent perturber le site avec moult inscriptions et commentaires inutiles, et risquent, s'ils n'en sont empêchés, de surcharger le serveur avec des indexations nombreuses, fréquentes .... et inutiles pour le site.

Celui là, je m'en sers, sur le TNG public, bien sûr. Et j'utilise un équivalent sur tous mes autres sites. Parce que mes sites sont sur des hébergements mutualisés et ne sont pas prévus pour supporter toutes ces visites.
Sauf que là je ne peux donner d'exemple de configuration ou de stats d'utilisation, parce que justement, je viens de découvrir que je n'avais plus accès à la gestion des mods.

5 24-03-2020 09:38 -

On le voit dans le fichier .htaccess à la racine du TNG. Depuis que je l'ai installé, le mod a interdit l'accès de 60 méchants robots en spécifiant les adresses IP avec laquelle ils se sont connectés.
En outre, en modifiant à la mano ce même fichier, j'ai interdit l'indexation à 20 robots indexeurs. Parce que l'indexation ne m'intéresse pas pour le site de généalogie, qui n'est qu'un des 5 sites de notre société d'histoire locale. Je préfère que les visiteurs soient de vrais humains, intéressés localement par nos recherches généalogiques. Parce que je ne suis pas intéressée par faire du chiffre et que je souhaite soulager un max mon serveur qui est en hébergement mutualisé.