Je viens de découvrir ce lieu d’échange qui correspond à mes recherches. Je pratique depuis peu le scraping via Python + Selenium avec un fonctionnement correct mais qui ne dure pas dans le temps avec un blocage rapide de mon script (par un captcha le plus souvent).
Mon but est de surveiller des familles d’articles , Lego par exemple sur plusieurs sites ou d’autres articles que je souhaitent acheter.
Je voudrais savoir dans un premier temps si l’utilisation d’une autre méthode serait plus efficace que selenium ?
Dans un second temps , je suis a la recherche de tuto dans ce domaine.
Pensez vous qu’il est possible de faire un bot sans utilisation de proxy ou d’autres options payantes tout en évitant les détections ? Par exemple avec des délais plus long d’analyse ?
Bonsoir, pour performer dans le scraping et dans le domaine du monitoring d’items, il faut utiliser des proxies et une bonne empreinte que ce soit en requests ou navigateur headless.
Pour les tutos → repo github → aller lire le code des autres, meilleures solutions pour apprendre de nouvelles choses. Sinon sur le youtube anglais
Akamai n’est pas facile pour un novice, il faut y passer du temps
J’ai essayé un système de proxy gratuit mais la liste est souvent banni. Je vais donc chercher un site avec un bon rapport qualité/prix sur les proxies.
Après quelques recherches je vais essayer d’adapter mes scripts avec Playwright en remplacement de selenium.
J’ai entendu parler de Node.js mais j’ai peur que ce soit un tout nouveau type de programmation alors que je ne maitrise pas totalement Python.
Merci pour tes conseils. Si ce browser est gratuit comme selenium il est fort possible que mon script s’améliore avec moins de detection de bot.
J’utilise aussi les requetes pour récupère les fichiers json avec Xhr. Sur certains sites je n’arrive pas a trouver l api lié au site. Y a t-il une technique autre que le network dans navigateur pour trouver les api?
Merci pour le discord je vais m’inscrire dès que je rentre chez moi
Je vais consercer la methode via api pour les sites facilement accessible pour les autres je vais essayer le nouveau browser. Pour le moment je ne pense pas acheter des proxies, je préfère attendre de perfectionner mon code. Et les proxies gratuit me semble trop dangereux