Salut les amis !
Comment interdire aux robots de venir visiter et indexer mes TNG ?
Je suis sure que je l'ai déjà fait, mais là, soudain, je ne sais plus ....
1 03-05-2021 17:23 - Pas de robot chez moi !
2 03-05-2021 17:33 - Pas de robot chez moi !
Bonjour Katrine,
Il faut créer un fichier Robots.txt à la racine du site et y mettre le code suivant :
User-agent: *
Disallow: /
3 03-05-2021 17:46 - Pas de robot chez moi !
Merci Pedro. Ya déjà ça, mais de nombreux robots ne sont pas très obéissants. J'en ai près de 800 par jour. :
crawlbap191.1and1.org etc
msnbot-207-46-13-81.search.msn.com etc
petalbot-114-119-134-231.petalsearch.com etc
4 03-05-2021 19:53 - Pas de robot chez moi !
La rançon de la gloire...
J'utilise customized logs qui en met une bonne partie dans un fichier log séparé.
Y a pas un Mod Bot trap..?
5 03-05-2021 21:42 - Pas de robot chez moi !
J'ai mis Bot-Trap, mais il attrape pas beaucoup de bots ... Je reçois un mail de signalement tous les 36 du mois.
6 03-05-2021 23:01 - Pas de robot chez moi !
Bot-trap : il faut peut-être mettre la liste des bots à jour?
9 04-05-2021 16:32 - Pas de robot chez moi !
Bonjour
Kath, avec le "poisson" on utilise htaccess en y incluant des plages d'IP - par exemple pour msnbot 207.46.0.0/16
c'est ce que je fais sur mon site, dès qu'un robot se signale, je le bloque ainsi.
si tu vas sur le site du G.U.P.P.Y il y a en téléchargement le blocage des spammeurs
Cdlt
François (Tarn FRANCE)
10 05-05-2021 19:28 - Pas de robot chez moi !
Merci François. Ça me rappelle quelque chose. Le Babelleir appelait ça la muraille de Chine. Parce que les IP était surtout chinoises. Je crois même que c'est moi qui l'avait proposé en téléchargement pour la 1ère fois, aux alentours de ... 2007 ? Mais au bout d'un moment, le htaccess devenait tellement lourd que ça ralentissait quand même l'ouverture du site.
Je voudrais bien trouver quelque chose de plus pratique, avec des barrages par robot indexeur au lieu de par IP.
11 05-05-2021 20:29 - Pas de robot chez moi !
Ca veut dire quoi : "par robot indexeur"?
Customized logs (https://tng.lythgoes.net/wiki/index.php … d_Logs_Mod)
propose de mettre les robots dans un fichier log séparé et dispose donc d'une liste de robots...
12 05-05-2021 20:53 - Pas de robot chez moi !
Michel, tu m'avait déjà causé de ce mod. Mais à quoi vont me servir ces logs en 3 listes ? Ce que je voudrais, c'est interdire aux robots de visiter et d'indexer le site. Peut-être que d'ajouter "meta noindex, no follow" pourrait ralentir ce type de visites.
Pour mon TNG de village, je souhaite que les visiteurs viennent par mon site principal, pas par un moteur de recherche.
Pour mon site familial, qui est privé à part quelques stats et la page d'accueil, je souhaite faire l'économie des visites de robots qui sont inutiles.
13 06-05-2021 00:36 - Pas de robot chez moi !
Il me semble que meta no follow.... figure sur quelques pages TNG...
Si ça te suffit, il faut juste l'ajouter qqpart => dans ton header par exemple?
Là où tu as déjà ajouté ta phrase magique
// phrase magique de Kat pour dérouter Google...
echo "<meta http-equiv=\"Permissions-Policy\" content=\"interest-cohort=()\"/>\n";
dans genlib.php, function tng_header() (ligne environ 90).
Michel
14 06-05-2021 06:27 - Pas de robot chez moi !
Eh bé voilà, merci ! C'est en place, je vais voir si ça aide à ralentir les visites.. J'ai mis dans genlib.php, juste après la meta description :
echo "<meta name=\"robots\" content=\"noindex, nofollow\" />\n";
16 07-05-2021 07:58 - Pas de robot chez moi !
C'était presque tranquille du côté des robots voleurs de bande passante et pilleurs de site, quand ce matin compute-1.amazonaws.com s'est réveillé. D'après tout ce que j'ai lu sur le sujet, ce n'est pas vraiment Amazon Web service qui crawle les sites web, mais les entreprises qui louent leurs services.. Le mod Bot-Trap essaye bien de les bloquer et comme un bon petit soldat les inscrit dans le htaccess pour les bloquer, mais ça sert à rien.
Sur mon site de test et sur le site vivant, le mod est installé, il doit être configuré différemment sur les 2 sites, parce que le contenu du htaccess est différent, mais en tout état de cause, c'est inutile, du moins en ce qui concerne compute-1.amazonaws.com.
Il existe beaucoup de littérature sur le sujet, mais je ne comprends pas tout, trop technique, et an anglais.
17 07-05-2021 12:17 - Pas de robot chez moi !
Utilises-tu des services Cloud Amazon? Par exemple via une de tes applications comme Piwigo?
18 07-05-2021 13:04 - Pas de robot chez moi !
Je vois pas, vraiment. Piwigo, c'est un CMS comme TNG ou comme ce forum. J'héberge tout sur des serveurs mutualisés que je loue (Ionos ou OVH).
19 07-05-2021 14:02 - Pas de robot chez moi !
Oh bougre d'idiote que je suis : comme le moteur de recherche personnalisé Google ne voulait plus fonctionner sans donner sa carte bleue, j'ai mis sur le site principal un moteur de recherche Duck Duck Go et il me semble que ce moteur est hébergé dans les Amazon Web Services.
Mais comment pourrais-je autrement proposer sur chacun de mes 5 sites, un service qui recherche sur les 5 sites à la fois ?
Avant, je faisais pas ça, mais depuis quelques mois, je ne gère plus ce groupe de sites en mode dictateur et je me suis initiée à la démocratie. J'ai dû céder sur plusieurs points lors de négociations ardues. Heu ... je pourrais dire que ça marche plus et le supprimer, là, comme ça, l'air de rien ???
20 07-05-2021 15:49 - Pas de robot chez moi !
Et oui. DuckduckGo est bien sur les serveurs Amazon.
Lorsque ton site est en https, il arrive aussi que certains certificats soint hébergés sur les serveurs Amazon. D'où trafic pour allez chercher les certificats et les vérifier...
Mais en général, à part bouffer de la bande passante, les ....amazonAWS n'est pas dangereux/méchant...
Pourquoi ne pas essayer un moteur français (trémolos dans la voix)?
Ou indexer toi-même tes sites...?