Scraping avec VPN

Salut les Scrapers,

J’essaye de scraper le site suivant www.mscorecard.com
Pas de soucis du coté de python pour récupérer les datas.
Sauf que … quand je met mon VPN (histoire de me protéger un peu), impossible d’accéder au site
Donc petit test en regardant ce site au couvert du VPN via Google Chrome et idem : pas de connexion au site.

Savez-vous comment contourner ce soucis de site qui block quand il voit un VPN ?

PS : Je met ce post dans ‹ scraping › mais je peux changer s’il y a mieux comme catégorie …

Thais

Hello, je te conseille de prendre des proxies.
J’utilise Vous pouvez acheter des proxys anonymes à bas prix. Proxies individuels et privés bon marché personellement

2 « J'aime »

C’est vrai que j’utilise plus des VPN que des proxy, je vais creuser cela …

Merci pour ton aide

Bonjour,

Toujours sur ce sujet, avez vous deja fais. du scraping au travers de Tor ?
Il semblerait qu’un mix Python + Selenium + Tor puisse nous masquer …
Par contre sous mas, compliquer a mettre en place, donc si vous avez des idées :wink:

Le problème des VPN c’est qu’il est très facile de savoir que c’est une IP datacenter (= une ip d’un serveur, et pas une connexion résidentielle), donc ça se bloque facilement. Ou ça se limite facilement. Sur Google par exemple, tu auras bcp plus de captcha en passant par un VPN.

TOR c’est encore pire pour le scrapping, car en plus d’être beaucoup plus lent qu’un VPN, les IP de tous les noeuds sortants sont publiques.

En gros tu as:

  • TOR: Gratuit, mais probablement le pire car c’est lent et tous les noeuds sortants sont identifiables. Tu risques d’être bloqué ou de te manger des captcha à foison. Après, si le site ne bloque pas TOR, pourquoi pas.
  • Les VPN: C’est rapide, pas cher, mais c’est une IP de serveur facilement détectable, tu peux te faire bloquer si d’autres utilisateurs tirent trop dessus (par exemple en faisant trop de recherches sur Google, tu vas avoir systématiquement des captchas).
  • Proxy datacenter: Tout pareil que les VPN, sauf que tu peux avoir beaucoup plus d’IP à disposition. Tu peux aussi avoir des proxy privés (= ip utilisées uniquement par toi). Mais on saura que ça vient pas de la livebox d’un particulier.
  • Proxy résidentiels: Là c’est différent, ce sont des IP résidentielles. Donc elles sont identifiées comme appartenant à des FAI (type Orange, SFR, etc.). Et il y a des fournisseurs qui ont des millions d’IP à disposition, donc peu de chance qu’elles soient marquées (il faudra leur demander comment ils font, c’est probablement pas très propre). C’est le must pour être indétectable en scrapping. Mais c’est beaucoup plus lent que des IP datacenter ou VPN (normal car en général les particuliers ont pas les mêmes connexions que les datacenter). C’est beaucoup plus cher.
  • Proxy 4G: Là c’est le niveau encore au-dessus. En général utilisé pour automatiser des comptes de réseaux sociaux. Mais je maitrise beaucoup moins le sujet.
3 « J'aime »

J’adore, merci Julien pour toutes ces explications.
Pour le moment, j’utilise un VPN, mais pour ne pas me faire bloquer, je dois le changer à la main tous les 150 requêtes pour ne pas bannir l’IP donc pour une automatisation complète, on repassera :frowning:

Le soucis des proxys gratuit c’est qu’ils sont connus et aussi rapidement bloqués … a moins que tu es des conseils sur un site ou trouver des proxys qui fonctionnent ??
Et la ok pour tout automatiser avec du python…

Merci pour ton aide

Bonjour ! Personnellement, quand je rencontrai ce genre de verrouillage, je me créais un système de rotative proxy, voici le concept :

  • identifier des sites de proxy gratuit
  • scraper ces sites
  • tester un échantillon aléatoire de chaque source
  • si 200 alors scrap jusqu’à 404
  • puis reboucle sur les tests de nouveau proxy

Bien sûr, j’imagine que si leur sécu est déléguée à un cyberlab cette solution est usless, car ils doivent surement utiliser des crawlers qui scrutent le moindre combos d’expressions régulières qui correspondent à un proxy. En tout cas, ça ne te coûte rien d’essayer.
Bonne soirée !

Je n’utilise jamais de proxy gratuit, seulement des services payants.

On peut trouver des proxies premium à partir de 1$/ip.

Je vois vraiment pas l’intérêt de perdre des heures pour économiser 5$ :joy:

Hello Thais :wave:,

Avant de mettre en place des proxy j’ai fait pareil que toi avec un VPN.

Un VPN très bon pour ça c’est HMA, dans les paramètres il y a une feature pour rotate automatiquement le VPN toutes les minutes, 5min, 10, heures…

N’hésites pas si besoin :smiley: