Nombres de proxy pour Scrap ?

Hello ! Débutant dans le scrapping, le sujet des proxy est aussi assez obscure.
Après des petites recherches j’ai réussi à dresser une liste des sites proposant des proxies de qualité.
Je souhaite effectuer un achat sur l’un de ses sites mais je ne sais pas le nombre de proxies dont je vais avoir besoin.
J’utilise selenium pour remplir le formulaire et en extraire les données final. Je pense qu’il y’a envrion 100 000 requetes. avec un rythme de 10 à 12 requetes toutes les 30-60 secondes.

Comment jaugez vous le nombre de private proxy dont vous allez avoir besoin ?

Hello @adr18

Vraiment ça dépend de ton site!

Tu as des sites très relax
e.g. un seul proxy fera l’affaire

Et tu as des sites datadomés à mort

:wave:

Je te conseillerais humblement:
_ faire un premier test sans pause avec 1 proxy
_ évaluer la vitesse de blocage
_ t’adapter si besoin

Autrement dit, pas de règle dans l’absolu, uniquement du cas par cas.

Et si tu veux savoir comment utiliser un proxy avec python je laisse ça là:

:lobster:

1 « J'aime »

Hey @SashaLobstr !
Après avoir vu avec mon supérieur on va essayer de réduir au max le nombre de requete et l’étendre au max sur un période.

Le site ne bloque pas forcement à vu de nez mais réenvoie de fausses données si il detecte le bot.
Je fais déjà une rotation entre 64 user agent dans mon header et j’aimerai ajouter à cela differentes adresses ip pour m’assurer que la semaine où sera lancé le script ne produira pas de fausses données.

Ps : Merci pour l’article ! Je pense que les adresses publiquent sont déjà toutes blacklisté malheuresement car c’est un site d’assurance de véhicule bien connu =)

1 « J'aime »

Hello @adr18

Merci pour ton retour!

Ça m’a l’air bien calibré oui!

Complètement blacklistées effectivement, et vraiment déconseillé:
_ temps de latence long
_ inaccesibilité
_ blacklisté

:joy:

Mais pratique dans le cadre du tuto, puisque gratuit.

Si tu veux de bonnes IPs gratuites, je ne peux que te conseiller cet article de nos amis de chez scrapingbee

(coucou @ksahin)

:wave:

1 « J'aime »

Je viens de tester l’api de scrapingbee avec selenium mais même avec le JS rendering cela desactive tout interaction avec la page cela est bien dommage car je pensais avoir trouver la solution miracle lol

Contacte @ksahin directement sur le chat, il devrait pouvoir t’aider!