J’essaye de scraper le site suivant www.mscorecard.com
Pas de soucis du coté de python pour récupérer les datas.
Sauf que … quand je met mon VPN (histoire de me protéger un peu), impossible d’accéder au site
Donc petit test en regardant ce site au couvert du VPN via Google Chrome et idem : pas de connexion au site.
Savez-vous comment contourner ce soucis de site qui block quand il voit un VPN ?
PS : Je met ce post dans ‹ scraping › mais je peux changer s’il y a mieux comme catégorie …
Toujours sur ce sujet, avez vous deja fais. du scraping au travers de Tor ?
Il semblerait qu’un mix Python + Selenium + Tor puisse nous masquer …
Par contre sous mas, compliquer a mettre en place, donc si vous avez des idées
Le problème des VPN c’est qu’il est très facile de savoir que c’est une IP datacenter (= une ip d’un serveur, et pas une connexion résidentielle), donc ça se bloque facilement. Ou ça se limite facilement. Sur Google par exemple, tu auras bcp plus de captcha en passant par un VPN.
TOR c’est encore pire pour le scrapping, car en plus d’être beaucoup plus lent qu’un VPN, les IP de tous les noeuds sortants sont publiques.
En gros tu as:
TOR: Gratuit, mais probablement le pire car c’est lent et tous les noeuds sortants sont identifiables. Tu risques d’être bloqué ou de te manger des captcha à foison. Après, si le site ne bloque pas TOR, pourquoi pas.
Les VPN: C’est rapide, pas cher, mais c’est une IP de serveur facilement détectable, tu peux te faire bloquer si d’autres utilisateurs tirent trop dessus (par exemple en faisant trop de recherches sur Google, tu vas avoir systématiquement des captchas).
Proxy datacenter: Tout pareil que les VPN, sauf que tu peux avoir beaucoup plus d’IP à disposition. Tu peux aussi avoir des proxy privés (= ip utilisées uniquement par toi). Mais on saura que ça vient pas de la livebox d’un particulier.
Proxy résidentiels: Là c’est différent, ce sont des IP résidentielles. Donc elles sont identifiées comme appartenant à des FAI (type Orange, SFR, etc.). Et il y a des fournisseurs qui ont des millions d’IP à disposition, donc peu de chance qu’elles soient marquées (il faudra leur demander comment ils font, c’est probablement pas très propre). C’est le must pour être indétectable en scrapping. Mais c’est beaucoup plus lent que des IP datacenter ou VPN (normal car en général les particuliers ont pas les mêmes connexions que les datacenter). C’est beaucoup plus cher.
Proxy 4G: Là c’est le niveau encore au-dessus. En général utilisé pour automatiser des comptes de réseaux sociaux. Mais je maitrise beaucoup moins le sujet.
J’adore, merci Julien pour toutes ces explications.
Pour le moment, j’utilise un VPN, mais pour ne pas me faire bloquer, je dois le changer à la main tous les 150 requêtes pour ne pas bannir l’IP donc pour une automatisation complète, on repassera
Le soucis des proxys gratuit c’est qu’ils sont connus et aussi rapidement bloqués … a moins que tu es des conseils sur un site ou trouver des proxys qui fonctionnent ??
Et la ok pour tout automatiser avec du python…
Bonjour ! Personnellement, quand je rencontrai ce genre de verrouillage, je me créais un système de rotative proxy, voici le concept :
identifier des sites de proxy gratuit
scraper ces sites
tester un échantillon aléatoire de chaque source
si 200 alors scrap jusqu’à 404
puis reboucle sur les tests de nouveau proxy
Bien sûr, j’imagine que si leur sécu est déléguée à un cyberlab cette solution est usless, car ils doivent surement utiliser des crawlers qui scrutent le moindre combos d’expressions régulières qui correspondent à un proxy. En tout cas, ça ne te coûte rien d’essayer.
Bonne soirée !