Archives de
Category: Web

Cyborg Jeff vs Robots

Cyborg Jeff vs Robots

MAJ – illustration générée par ChatGPT, 2026

Ok, après de longues soirées, j’ai donc pu faire redescendre à la normal la charge CPU du serveur Infomaniak et rejoindre mes « copains » du serveur mutualisé. Le combat fut long, stressant et dans la mesure où une fois de plus, je me suis retrouvé seul au monde avec mon problème, je vais en profitez pour vous en faire partager les solutions, puisque déjà quelques autres internautes commencent à rencontrer de problèmes similaires.

Rappel des faits, début du mois, mon hébergement chez Infomaniak devait être isolé car quelques choses saturait le serveur web… et à moi d’en trouver la cause et l’éradiquer. Pas de malware, mise à jour de WordPress et plugins, rien n’y fait, je finis par constater un taux anormal d’appel dans les logs sur une seul et unique page du blog, plus de 10x par secondes et venant de serveurs BingBot officiels Microsoft. La raison reste toujours un mystère, mais mes lectures ont pu montrer d’autres cas similaires. Bug de l’outil, tentative de détournement pour saturer les serveurs…

Tout d’abord, j’ai donc installé un plugin de gestion de cache des pages à la demande d’Infomaniak. Celui-ci n’a pas vraiment fait diminuer la charge CPU, et m’enquiquine plus qu’autre chose d’ailleurs.

Après de nombreux tests, j’ai finalement interdit à BingBot et MSNBot de se rendre sur tout le site contenant la page à problème. Radicale, mais le contenu de celui-ci ne souffrira pas de ce nom référencement… Ceci dit cette solution est à mon goût trop agressive.

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(msnbot).* [NC]  # Si le user agent contient la chaine msnbot
RewriteRule ^.* – [F,L]  # On interdit alors l’accès à la page

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC]  # Si le user agent contient la chaine msnbot
RewriteRule ^.* – [F,L]  # On interdit alors l’accès à la page

La solution s’avère efficace, puisque la charge serveur diminue alors de suite, néanmoins les logs restent surchargés, j’adapte donc avec un fichier ROBOTS.TXT qui placé à la racine du site impose aux différents bots ce qu’il peuvent indexer ou non… 24h plus tard, les résultats sont efficaces, mon fichiers LOG de 40mo est passé à 1,5mo !

User-agent: *
Disallow: /wp-*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*%26layout=
Disallow: /*xoops_url

J’impose donc de ne pas indexer tous répertoires ou fichiers commençant par wp- à savoir des fichiers critiques à WordPress, les fichiers .php, .js ou .css et propre à ce cas les urls contenant la chaine de caractère %26layout= ou xoops_url.

Bon, j’espère être tranquille jusqu’à l’année prochaine mantenant !

Allé, pour vous donner un peu de coeur à l’ouvrage… tout cela me rappelle ce morceau de musique écrit en 2002 : Cyborg Jeff – We are the Bots !

Lire la suite Lire la suite

Saturation serveur

Saturation serveur

Déjà quelques jours que je m’arrache les cheveux et perd un temps précieux sur un sérieux problème d’attaque Web sur mon serveur, un soucis qui semble s’orienter autour d’attaque de BingBot ou d’un bon bug dans celui-ci, le tout causant une charge CPU anormal sur le serveur.

Et c’est de la que le problème a été identifié. Contacté par Infomaniak il y a un moment, mon hébergement avait dû être démutualisé pour cause de surcharge CPU, or ce n’est pas vraiment le genre d’Infomaniak de faire la grimace ! Difficile de mettre la doigt exactement sur ce qui en est la cause, il a donc fallu tenter plusieurs pistes.

J’ai d’abord fait un genre de test malware de mes différents sites avec cet outil : http://sucuri.net/ sans grand résultat, il m’annonçait simplement que mes versions de WordPress n’était pas à jour. Dans la mesure où le passage à Worpdress 3.x impliquait toute une série d’incompatibilité plugins, je m’étais volontairement arrêté à la version 2.9.8.2  J’ai donc mis à jour mes noyaux, mis à jour les nombreux plugins et puis ?

Je me suis souvenu avoir lu qu’il était parfois utile de checker authenticité des thèmes wordpress utilisés. En effet, par exemble, celui de mon blog avait été réalisé au départ d’un thème datant maintenant de 2007…. Cause potentiel ? Pas vraiment sur, mais bon, cela n’aura pas fait de tord de mettre tout cela à jour

J’en ai profité pour faire du nettoyage sur mon serveur, par bloquer via .htaccess certains répertoires,… puis sous les conseilles d’Infomaniak, j’ai installé un outil d’optimisation de cache du site WP Super Cache, qui permet de diminuer les requêtes aux serveurs.

Mais rien à faire, la charge CPU restait toujours assez élevée… Dans les statistiques, je voyais qu’une page d’un de mes blogs était anormalement visitée, plus de 600.000 fois depuis début mai sans aucune raison. La page était plutôt clean, on aurait juste pu lui reprocher un embed de player Jamendo… Un croisement avec les weblog du site me montre effectivement que le problème passe bien par là, on retrouve ce genre de log plusieurs fois par seconde en permanence :

157.55.17.151 - - [16/May/2012:00:00:10 +0200] "GET /cyborgjeff/site/albums/divagation-se-1997/%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/372-ego/1997/03/23/365-2-3-frutti-dance-classics/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/370-introduction-of-dream-part-ii/1996/11/27/279-moon-day/1996/11/27/279-moon-day/1997/04/04/368-deep-house-titanic-mix/1997/04/10/372-ego/1997/04/10/372-ego/1997/04/05/369-i-get-no-sleep-part-2/1997/03/03/351-one-month-but-three-weeks-without-you-mixing/1997/03/16/361-hey-mister-dj/1997/02/12/335-space-del/1997/02/12/335-space-del/ HTTP/1.1" 301 - "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Plusieurs choses m’intrigue là dedans, d’abord tout le blabla après la page proprement dit et ensuite des appels vers les urls des pages liées à la première, un peu comme si l’appel en question allait ouvrir une dizaine de pages d’un coup, ce qui pourrait évidemment expliquer la surcharge, ensuite à quoi peut bien faire référence ceci : %26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px

J’ai tout d’abord supprimer ma page temporairement, les appels ont continuer sans soulager le serveur, et pour cause, c’est wordpress qui génère les messages d’erreur type 404 et compagnie, par contre fin de journée, le BingBot a fini par se lassé et la charge CPU est retombée… J’ai réactivé la page, et dès le lendemain, bardouf !

Petit check, les différentes IPs semblent bien provenir de Microsoft (MSNBot et BingBot), j’avais fini par trouver quelques Abus BingBot récent mais qui semble surtout provenir d’adresse IP douteuses, et cibler essentiellement les pages de logins ou de commentaires, ce qui n’est pas le cas ici… J’ai par contre aussi trouvé certaines personnes rapportant des comportements agressif et anormaux des BingBots officiels ces dernières semaines…

Que faire ? Pour l’heure j’ai bloqué l’accès à Bingbot et Msnbot via du code .htaccess

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(msnbot).* [NC] # Si le user agent contient la chaine msnbot
RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC] # Si le user agent contient la chaine msnbot
RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

Cela soulage le serveur, mais je trouve la parade un peu trop large… j’aimerais bien pouvoir affiner cela, voir comprendre la raison du problème sur ma page bien précise… histoire de pouvoir me prémunir d’autres pertes de temps de ce genre !

>> Ici la solution finale mise en place : https://lesmondesdecyborgjeff.be/2012/05/24/cyborg-jeff-vs-robots/

Lire la suite Lire la suite

Le temps d’une transition…

Le temps d’une transition…

Bon, il semblerait que mon blog au moins engendre des problèmes de saturations serveur… peut-être bien dû à la vétusté de mon thème WordPress que je traine depuis 2007 maintenant… pas sur, sur à 100%, mais c’est tout de même une piste que je ne eux ignorer…

De ce fait, l’esthétique du Blog de Cyborg Jeff devra donc se contenter de ceci le temps que je pousse plus loin la résolution du problème !

En mode papa et difficilement plus…

En mode papa et difficilement plus…

Il faut bien que je me fasse une raison. Il y a quelques années j’ai pris conscience que je ne serais pas un grand musicien et qu’il me fallait être heureux des plus de 1200 petites mélodies que j’avais composées. Aujourd’hui, je dois bien me rendre à l’évidence que je ne serais pas un blogueur influant… J’ai essayé, j’ai tenté de vous divertir avec ma vie un peu original mais probablement pas assez, par mes découvertes multimédia, mes coups gueules probablement trop light et mes éternels feed-back de jeux vidéo. Bien que mon blog soit soignée, sur un serveur rapide et fiable, sans pub et même pas trop mal référencé, il n’a jamais cessé de perdre ses plumes avec la venue des webfastfood que sont les réseaux sociaux… Et en plus ça je vous l’ai déjà dit !

Au fond, ce que je fais le mieux, c’est probablement être papa. c’est au moins ce que je fais de mieux depuis bientôt 3 ans et c’est ce que je raconte le moins sur mon Blog. Un peu plus sur Facebook, mais même si j’aime assez bien la nouvelle présentation « timeline », Facebook me semble être quelques chose de beaucoup trop en mouvement que pour lui faire confiance… Quid dans 10 ans, que seront devenus toutes les données que je lui aurais confiées ? Ok, mon blog perd en visibilité mais au moins, je suis seul responsable de son existence !

Là de toute manière, je suis en mode « complet ». Avec mes deux puces de maintenant trois mois, un Charly fort difficile à l’approche de ses trois ans je suis content d’avoir un peu de temps pour dormir la nuit… parfois et de trouver quelques heures pour avancer dans mes montages vidéo de mariage… En réalité je souffle quand je suis au boulot, mais si je n’y manque pas de travail, mais collègues sont moins bruyants que trois jeunes enfants !

Franchement je me vois mal trouver le temps pour vous bloguer un test de ma Sony VG20 à objectif interchangeable, mes impressions sur Uncharted 3 et 3D Dot Game Heroes, mes filles dans la Bugaboo Donkey ou la mise en place du studio à incrustation vidéo que je prépare au bureau !

Mais je reviendrais, le temps me reviendra, je tâcherais d’améliorer mon style et mon orthographe, avec des phrases plus courtes, comme dans Hunger Games, avec une police et une mise en page un peu plus grande… et j’espère des sujets intéressants !

Lire la suite Lire la suite

Lire du contenu Offline ?

Lire du contenu Offline ?

Illustration publicitaire conservée dans le cadre du Fair Use – ©Flipboard, 2012

Bon, je commence à utiliser l’iPad de manière un peu plus intensive, mais il me reste un très gros manque. Trouver l’outil idéal pour la lecture de Flux RSS offline. Les deux plus grands outils sont Pulse News et Flipboard. A choisir, ce dernier propose la mise en page la plus conviviale, la possibilité de gérer mes contenus favoris depuis mon compte Google et la possibilité de les partager de manières diverses, pas sur Scoop.it mais ne soyons pas trop difficile non plus.

Ce qui m’embête, c’est que Flipboard, comme tous les autres outils que j’ai pu trouver jusqu’ici ne s’auto-alimente pas en contenus. Je veux dire par là qu’il faut démarrer l’application ou au moins l’utiliser pour qu’il regarde s’il est connecté à Internet et mette les contenus à jour. Or moi, c’est plutôt quand je n’ai pas accès à Internet que cela m’intéresserait de lire du contenu et au prix de la 3G en Belgique, je ne vais pas aller le faire sans connexion WiFi.

Même en lançant Flipboard juste avant de partir chez Carglass, je n’ai eu droit à qu’à trois pages de contenus. Un peu léger pour patienter de manière productive. D’ailleurs, pouvoir envoyer des commentaires et recommandations dans une fil d’attente serait également intéressant.

Je doute que Flipboard réponde à mes attentes, alors si l’un d’entre vous avait un autre outil à me conseiller ?