1 03-05-2021 17:23 -

Salut les amis !
Comment interdire aux robots de venir visiter et indexer mes TNG ?
Je suis sure que je l'ai déjà fait, mais là, soudain, je ne sais plus ....

2 03-05-2021 17:33 -

Bonjour Katrine,

Il faut créer un fichier Robots.txt à la racine du site et y mettre le code suivant :
User-agent: *
Disallow: /

3 03-05-2021 17:46 -

Merci Pedro. Ya déjà ça, mais de nombreux robots ne sont pas très obéissants. J'en ai près de 800 par jour. :
crawlbap191.1and1.org etc
msnbot-207-46-13-81.search.msn.com etc
petalbot-114-119-134-231.petalsearch.com etc

4 03-05-2021 19:53 -

La rançon de la gloire...
J'utilise customized logs qui en met une bonne partie dans un fichier log séparé.
Y a pas un Mod Bot trap..?

5 03-05-2021 21:42 -

J'ai mis Bot-Trap, mais il attrape pas beaucoup de bots ... Je reçois un mail de signalement tous les 36 du mois.

6 03-05-2021 23:01 -

Bot-trap : il faut peut-être mettre la liste des bots à jour?

7 03-05-2021 23:09 -

J'ai pas trouvé où dans l'admin du mod.

8 04-05-2021 11:37 -

Alors, niveau supérieur = > le vrai forum TNG !

9 04-05-2021 16:32 -

Bonjour
Kath, avec le "poisson" on utilise htaccess en y incluant des plages d'IP  - par exemple pour msnbot 207.46.0.0/16
c'est ce que je fais sur mon site, dès qu'un robot se signale, je le bloque ainsi.
si tu vas sur le site du G.U.P.P.Y il y a en téléchargement le blocage des spammeurs

Cdlt
François (Tarn FRANCE)

10 05-05-2021 19:28 -

Merci François. Ça me rappelle quelque chose. Le Babelleir appelait ça la muraille de Chine. Parce que les IP était surtout chinoises. Je crois même que c'est moi qui l'avait proposé en téléchargement pour la 1ère fois, aux alentours de ... 2007 ? Mais au bout d'un moment, le htaccess devenait tellement lourd que ça ralentissait quand même l'ouverture du site.
Je voudrais bien trouver quelque chose de plus pratique, avec des barrages par robot indexeur au lieu de par IP.

11 05-05-2021 20:29 -

Ca veut dire quoi : "par robot indexeur"?

Customized logs (https://tng.lythgoes.net/wiki/index.php … d_Logs_Mod)
propose de mettre les robots dans un fichier log séparé et dispose donc d'une liste de robots...

12 05-05-2021 20:53 -

Michel, tu m'avait déjà causé de ce mod. Mais à quoi vont me servir ces logs en 3 listes ? Ce que je voudrais, c'est interdire aux robots de visiter et d'indexer le site. Peut-être que d'ajouter "meta noindex, no follow" pourrait ralentir ce type de visites.
Pour mon TNG de village, je souhaite que les visiteurs viennent par mon site principal, pas par un moteur de recherche.
Pour mon site familial, qui est privé à part quelques stats et la page d'accueil, je souhaite faire l'économie des visites de robots qui sont inutiles.

13 06-05-2021 00:36 -

Il me semble que meta no follow.... figure sur quelques pages TNG...
Si ça te suffit, il faut juste l'ajouter qqpart => dans ton header par exemple?
Là où tu as déjà ajouté ta phrase magique
// phrase magique de Kat pour dérouter Google...
    echo "<meta http-equiv=\"Permissions-Policy\" content=\"interest-cohort=()\"/>\n";

dans genlib.php, function tng_header() (ligne environ 90).

Michel

14 06-05-2021 06:27 -

Eh bé voilà, merci ! C'est en place, je vais voir si ça aide à ralentir les visites.. J'ai mis dans genlib.php, juste après la meta description :

echo "<meta name=\"robots\" content=\"noindex, nofollow\" />\n";

15 06-05-2021 23:37 -

Tiens-nous au courant...

16 07-05-2021 07:58 -

C'était presque tranquille du côté des robots voleurs de bande passante et pilleurs de site, quand ce matin compute-1.amazonaws.com s'est réveillé. D'après tout ce que j'ai lu sur le sujet, ce n'est pas vraiment Amazon Web service qui crawle les sites web, mais les entreprises qui louent leurs services.. Le mod Bot-Trap essaye bien de les bloquer et comme un bon petit soldat les inscrit dans le htaccess pour les bloquer, mais ça sert à rien.
Sur mon site de test et sur le site vivant, le mod est installé, il doit être configuré différemment sur les 2 sites, parce que le contenu du htaccess est différent, mais en tout état de cause, c'est inutile, du moins en ce qui concerne compute-1.amazonaws.com.
Il existe beaucoup de littérature sur le sujet, mais je ne comprends pas tout, trop technique, et an anglais.

17 07-05-2021 12:17 -

Utilises-tu des services Cloud Amazon? Par exemple via une de tes applications comme Piwigo?

18 07-05-2021 13:04 -

Je vois pas, vraiment. Piwigo, c'est un CMS comme TNG ou comme ce forum. J'héberge tout sur des serveurs mutualisés que je loue (Ionos ou OVH).

19 07-05-2021 14:02 -

Oh bougre d'idiote que je suis : comme le moteur de recherche personnalisé Google ne voulait plus fonctionner sans donner sa carte bleue, j'ai mis sur le site principal un moteur de recherche Duck Duck Go et il me semble  que ce moteur est hébergé dans les Amazon Web Services.

Mais comment pourrais-je autrement proposer sur chacun de mes 5 sites, un service qui recherche sur les 5 sites à la fois ?

Avant, je faisais pas ça, mais depuis quelques mois, je ne gère plus ce groupe de sites en mode dictateur et je me suis initiée à la démocratie. J'ai dû céder sur plusieurs points lors de négociations ardues. Heu ... je pourrais dire que ça marche plus et le supprimer, là, comme ça, l'air de rien ???

20 07-05-2021 15:49 -

Et oui. DuckduckGo est bien sur les serveurs Amazon.
Lorsque ton site est en https, il arrive aussi que certains certificats soint hébergés sur les serveurs Amazon. D'où trafic pour allez chercher les certificats et les vérifier...
Mais en général, à part bouffer de la bande passante, les ....amazonAWS n'est pas dangereux/méchant...

Pourquoi ne pas essayer un moteur français (trémolos dans la voix)?
Ou indexer toi-même tes sites...?