Conseils novice en scraping

Bonsoir ,

Je viens de découvrir ce lieu d’échange qui correspond à mes recherches. Je pratique depuis peu le scraping via Python + Selenium avec un fonctionnement correct mais qui ne dure pas dans le temps avec un blocage rapide de mon script (par un captcha le plus souvent).

Mon but est de surveiller des familles d’articles , Lego par exemple sur plusieurs sites ou d’autres articles que je souhaitent acheter.

Je voudrais savoir dans un premier temps si l’utilisation d’une autre méthode serait plus efficace que selenium ?

Dans un second temps , je suis a la recherche de tuto dans ce domaine.

Pensez vous qu’il est possible de faire un bot sans utilisation de proxy ou d’autres options payantes tout en évitant les détections ? Par exemple avec des délais plus long d’analyse ?

Merci encore pour vos conseils.

Bonsoir, pour performer dans le scraping et dans le domaine du monitoring d’items, il faut utiliser des proxies et une bonne empreinte que ce soit en requests ou navigateur headless.

Pour les tutos → repo github → aller lire le code des autres, meilleures solutions pour apprendre de nouvelles choses. Sinon sur le youtube anglais :slight_smile:

Akamai n’est pas facile pour un novice, il faut y passer du temps :man_technologist:

Bonjour, merci pour ta réponse josselin.

J’ai essayé un système de proxy gratuit mais la liste est souvent banni. Je vais donc chercher un site avec un bon rapport qualité/prix sur les proxies.

Après quelques recherches je vais essayer d’adapter mes scripts avec Playwright en remplacement de selenium.

J’ai entendu parler de Node.js mais j’ai peur que ce soit un tout nouveau type de programmation alors que je ne maitrise pas totalement Python.

bonjour, si tu ne veux pas changer tes habitudes et profiter de tes connaissances en selenium tu peux utiliser undetectable browser : GitHub - ultrafunkamsterdam/undetected-chromedriver: Custom Selenium Chromedriver | Zero-Config | Passes ALL bot mitigation systems (like Distil / Imperva/ Datadadome / CloudFlare IUAM) car les drivers selenium ajoutent des signatures détectables dans les navigateurs, undetectable browser marche pareil que selenium

@Truecode il y a aussi ce discord spé dans le scraping discord.gg/wgdyacHm

Merci pour tes conseils. Si ce browser est gratuit comme selenium il est fort possible que mon script s’améliore avec moins de detection de bot.
J’utilise aussi les requetes pour récupère les fichiers json avec Xhr. Sur certains sites je n’arrive pas a trouver l api lié au site. Y a t-il une technique autre que le network dans navigateur pour trouver les api?
Merci pour le discord je vais m’inscrire dès que je rentre chez moi

Payer ceux qui ont les endpoints… :sweat_smile:

Je vais consercer la methode via api pour les sites facilement accessible pour les autres je vais essayer le nouveau browser. Pour le moment je ne pense pas acheter des proxies, je préfère attendre de perfectionner mon code. Et les proxies gratuit me semble trop dangereux

Evite les proxies gratuits oui :wink: