Salut les amis !
Comment interdire aux robots de venir visiter et indexer mes TNG ?
Je suis sure que je l'ai déjà fait, mais là, soudain, je ne sais plus ....
1 03-05-2021 16:23 - Pas de robot chez moi !
2 03-05-2021 16:33 - Pas de robot chez moi !
Bonjour Katrine,
Il faut créer un fichier Robots.txt à la racine du site et y mettre le code suivant :
User-agent: *
Disallow: /
3 03-05-2021 16:46 - Pas de robot chez moi !
Merci Pedro. Ya déjà ça, mais de nombreux robots ne sont pas très obéissants. J'en ai près de 800 par jour. :
crawlbap191.1and1.org etc
msnbot-207-46-13-81.search.msn.com etc
petalbot-114-119-134-231.petalsearch.com etc
4 03-05-2021 18:53 - Pas de robot chez moi !
La rançon de la gloire...
J'utilise customized logs qui en met une bonne partie dans un fichier log séparé.
Y a pas un Mod Bot trap..?
5 03-05-2021 20:42 - Pas de robot chez moi !
J'ai mis Bot-Trap, mais il attrape pas beaucoup de bots ... Je reçois un mail de signalement tous les 36 du mois.
6 03-05-2021 22:01 - Pas de robot chez moi !
Bot-trap : il faut peut-être mettre la liste des bots à jour?
7 03-05-2021 22:09 - Pas de robot chez moi !
J'ai pas trouvé où dans l'admin du mod.
9 04-05-2021 15:32 - Pas de robot chez moi !
Bonjour
Kath, avec le "poisson" on utilise htaccess en y incluant des plages d'IP - par exemple pour msnbot 207.46.0.0/16
c'est ce que je fais sur mon site, dès qu'un robot se signale, je le bloque ainsi.
si tu vas sur le site du G.U.P.P.Y il y a en téléchargement le blocage des spammeurs
Cdlt
François (Tarn FRANCE)
10 05-05-2021 18:28 - Pas de robot chez moi !
Merci François. Ça me rappelle quelque chose. Le Babelleir appelait ça la muraille de Chine. Parce que les IP était surtout chinoises. Je crois même que c'est moi qui l'avait proposé en téléchargement pour la 1ère fois, aux alentours de ... 2007 ? Mais au bout d'un moment, le htaccess devenait tellement lourd que ça ralentissait quand même l'ouverture du site.
Je voudrais bien trouver quelque chose de plus pratique, avec des barrages par robot indexeur au lieu de par IP.
11 05-05-2021 19:29 - Pas de robot chez moi !
Ca veut dire quoi : "par robot indexeur"?
Customized logs (https://tng.lythgoes.net/wiki/index.php … d_Logs_Mod)
propose de mettre les robots dans un fichier log séparé et dispose donc d'une liste de robots...
12 05-05-2021 19:53 - Pas de robot chez moi !
Michel, tu m'avait déjà causé de ce mod. Mais à quoi vont me servir ces logs en 3 listes ? Ce que je voudrais, c'est interdire aux robots de visiter et d'indexer le site. Peut-être que d'ajouter "meta noindex, no follow" pourrait ralentir ce type de visites.
Pour mon TNG de village, je souhaite que les visiteurs viennent par mon site principal, pas par un moteur de recherche.
Pour mon site familial, qui est privé à part quelques stats et la page d'accueil, je souhaite faire l'économie des visites de robots qui sont inutiles.
13 05-05-2021 23:36 - Pas de robot chez moi !
Il me semble que meta no follow.... figure sur quelques pages TNG...
Si ça te suffit, il faut juste l'ajouter qqpart => dans ton header par exemple?
Là où tu as déjà ajouté ta phrase magique
// phrase magique de Kat pour dérouter Google...
echo "<meta http-equiv=\"Permissions-Policy\" content=\"interest-cohort=()\"/>\n";
dans genlib.php, function tng_header() (ligne environ 90).
Michel
14 06-05-2021 05:27 - Pas de robot chez moi !
Eh bé voilà, merci ! C'est en place, je vais voir si ça aide à ralentir les visites.. J'ai mis dans genlib.php, juste après la meta description :
echo "<meta name=\"robots\" content=\"noindex, nofollow\" />\n";
16 07-05-2021 06:58 - Pas de robot chez moi !
C'était presque tranquille du côté des robots voleurs de bande passante et pilleurs de site, quand ce matin compute-1.amazonaws.com s'est réveillé. D'après tout ce que j'ai lu sur le sujet, ce n'est pas vraiment Amazon Web service qui crawle les sites web, mais les entreprises qui louent leurs services.. Le mod Bot-Trap essaye bien de les bloquer et comme un bon petit soldat les inscrit dans le htaccess pour les bloquer, mais ça sert à rien.
Sur mon site de test et sur le site vivant, le mod est installé, il doit être configuré différemment sur les 2 sites, parce que le contenu du htaccess est différent, mais en tout état de cause, c'est inutile, du moins en ce qui concerne compute-1.amazonaws.com.
Il existe beaucoup de littérature sur le sujet, mais je ne comprends pas tout, trop technique, et an anglais.
17 07-05-2021 11:17 - Pas de robot chez moi !
Utilises-tu des services Cloud Amazon? Par exemple via une de tes applications comme Piwigo?
18 07-05-2021 12:04 - Pas de robot chez moi !
Je vois pas, vraiment. Piwigo, c'est un CMS comme TNG ou comme ce forum. J'héberge tout sur des serveurs mutualisés que je loue (Ionos ou OVH).
19 07-05-2021 13:02 - Pas de robot chez moi !
Oh bougre d'idiote que je suis : comme le moteur de recherche personnalisé Google ne voulait plus fonctionner sans donner sa carte bleue, j'ai mis sur le site principal un moteur de recherche Duck Duck Go et il me semble que ce moteur est hébergé dans les Amazon Web Services.
Mais comment pourrais-je autrement proposer sur chacun de mes 5 sites, un service qui recherche sur les 5 sites à la fois ?
Avant, je faisais pas ça, mais depuis quelques mois, je ne gère plus ce groupe de sites en mode dictateur et je me suis initiée à la démocratie. J'ai dû céder sur plusieurs points lors de négociations ardues. Heu ... je pourrais dire que ça marche plus et le supprimer, là, comme ça, l'air de rien ???
20 07-05-2021 14:49 - Pas de robot chez moi !
Et oui. DuckduckGo est bien sur les serveurs Amazon.
Lorsque ton site est en https, il arrive aussi que certains certificats soint hébergés sur les serveurs Amazon. D'où trafic pour allez chercher les certificats et les vérifier...
Mais en général, à part bouffer de la bande passante, les ....amazonAWS n'est pas dangereux/méchant...
Pourquoi ne pas essayer un moteur français (trémolos dans la voix)?
Ou indexer toi-même tes sites...?
21 24-07-2025 16:30 - J'ai bloqué les robots
Salut l'équipe. Depuis 2 ans j'avais équipé mes sites du mod Images Captcha, avec son lot d'images et qui marche très très très bien. Mais seulement pour bloquer les spams pour les enregistrements, les suggestions, les commentaires...
J'avais vu sur le forum TNG que quelqu'un avait mis Image captcha en accueil, ce qui n'est pas prévu dans le mod d'origine, mais cela ne protégeait que la page d'accueil. Alors, j'ai demandé à Brett s'il pouvait y avoir une évolution du mod qui protègerait des robots chacune des pages publiques par image captcha. Brett en a fait un mod en plus, qui nécessite l'installation préalable d'Image Captcha et que je suis en train de béta tester avec lui sur mon site de test. C'est tellement efficace qu'en 48 heures, seul un visiteur a réussi à passer.
Et quand je dis efficace : je me suis moi-même piégée toute seule et il a fallu que j'attende 1 heure pour que me soit de nouveau proposer le captcha à résoudre.
Attention : ce mod est encore en béta-test, n'est pas encore distribué et ce n'est pas sûr qu'il le soit un jour, Brett n'étant pas du tout persuadé que ça pourrait intéresser quelqu'un d'autre qu'une illuminée. Mais je voudrais bien que vous le béta-testiez en tant que visiteur de mon site de test et que vous veniez ensuite au rapport. C'est là : https://geneakat.chauvigne.info/
Certains ici m'ont demandé un jour pourquoi je voulais publier sur le web et ne pas être visité par Google. J'ai répondu que je voulais que mon site principal soit indexé, et qu'il contient des liens vers mes autres sites (TNG, album photo...). Mais l'indexation à l'ancienne s'applique au web d'il y a 20 ans. Les robots d'aujourd'hui envoient les liens à 1 humain pour 60000 autres aux robots. Et lorsque les humains font une recherche sur le web, ils ne seront même pas envoyés sur votre site web, ils ne l'atteindront jamais, mais il leur sera juste fourni un résumé de votre page, généré par un robot.
Tout ce que je veux pour mon site, c'est qu'il soit lu par des êtres humains.
22 24-07-2025 17:26 - Pas de robot chez moi !
Bonsoir Katryne
Je viens d'aller tester ton capcha d'accueil. Cela m'a l'air assez efficace.
pour ma part étant 'emm.. (ennuyé) par tous un tas de sites russes notamment j'en suis arrivé à limiter l'accès aux Français, Belges et Allemands par l'intermédiaire du htaccess
RewriteCond %{ENV:GEOIP_COUNTRY_CODE} !^(FR|BE|DE)$
RewriteRule ^(.*)$ - [F,L]
très efficace aussi, mais ton mod, enfin celui de Brett m'intéresse.
Bonne soirée
François
23 24-07-2025 20:10 - J’ai accès sans captcha
Bonjour Katrine,
J’ai contourné le captcha sans le valider,
Depuis mon iPhone (version mobile) j’ai effectivement eu le captcha sur la page d’accueil, je suis passé en version desktop, là j’ai eu le menu et de là je peux consulter la tribus, les photos, etc
24 24-07-2025 20:27 - Pas de robot chez moi !
Merci vous deux.
Pedro, je le trouve bien malin ton iphone, moi avec mon Android, je n'ai pas réussi à contourner le captcha, il a fallu que je le résolve pour aller plus loin.