Scrap en temps réel d'un site avec un reverse proxy

Nathan_L · Février 8, 2022, 9:03

Hello hello,
Je suis confronté à un problème qui me donne pas mal de fil à retordre et je ne sais même pas s’il y a une solution …
Je dois scrapper des articles d’un site en temps réel, à savoir que dès qu’un nouvel article sort, je dois pouvoir le récupérer.
Je le fais déjà sur plusieurs autres sites sans problème mais celui-ci possède un reverse proxy. Ce qui fait que je ne récupère l’info que quelques minutes après. Cette couche permet d’éviter de surcharger les servers (pour limiter les nombreuses requêtes que les petits malins comme moi balance …).
Mon programme est en python, j’ai testé avec plusieurs methodes requests, js, avec proxy, taper directement dans l’IP des proxys … Sans aucun résultat …

Est-ce que l’un d’entre vous a déjà été confronté à ce genre de problème ou aurait une piste ?
Sinon je suis prêt à faire appel à un pro mais là encore, vers quel type de profil me tourner ? (J’ai demandé conseil à des amis dev web, cybersecu mais peu de résultats)

Paul780 · Février 8, 2022, 10:01

Vu la description je suppose que c’est vinted. J’ai codé un monitor pour ce site. Malheureusement tu ne pourras pas changer la réponse du serveur, tu prendras du cache que tu contournes cloudfare ou pas…

Jorgi · Février 8, 2022, 10:03

Bah essaie avec un bundle de tor et selenium.

Nathan_L · Février 8, 2022, 10:06

Non pas du tout
Quand je parle d’article, c’est plutôt article blog.

Nathan_L · Février 8, 2022, 10:07

Je vais regarder ca merci !

Paul780 · Février 8, 2022, 10:14

dm moi le lien du site et je vais jeter un coup d’oeil alors !

julienarcin · Février 8, 2022, 11:43

Par « reverse proxy » tu veux dire cloudflare (ou équivalent) ?

Si oui, il faut arriver à trouver l’IP d’origine qui se trouve derrière.

Une méthode que j’ai utilisée par le passé est de chercher les certificats SSL associés au domaine avec un outils comme censys.io. Souvent, un certificat SSL sur le domaine valide également l’IP d’origine.

Ensuite, lorsque tu as l’IP d’origine, tu fais une requête dessus avec un header HTTP « Host: domaine.com » et le serveur d’origine va te renvoyer le site

D’ailleurs, cette méthode est un petit secret de growth hacker pour scraper les sites qui sont uniquement protégés par Cloudflare. Souvent, quand on a l’IP d’origine, c’est open-bar, il n’y a plus de limite sur les requêtes qu’on peut envoyer.

(et c’est le cas de beaucoup de sites très intéressants )

Nathan_L · Février 8, 2022, 11:47

Oui j’ai essayé cette méthode, je me suis mal expliqué quand je parlais de taper directement l’IP des proxys, mais pareil, j’en ai essayé une 10aine d’IP avec le Host dans le header mais aucune d’entre elle ne me renvoyait en temps réel T.T

julienarcin · Février 8, 2022, 12:57

Alors il faut que tu donnes plus de détails sur ta problématique parce que ce n’est pas clair. Par reverse proxy, tu entends un WAF type Cloudflare ? Un load balancer ? Nginx ?

Les IPs que tu as essayées sont bien celles du serveur/service d’origine ? Si oui, comment les as-tu obtenues ? Parce que ça ne change rien de taper les IP du reverse proxy vu qu’on essaie de le bypasser.

Ça ne changera rien non plus de passer par TOR, d’essayer de forger différent types de requêtes ou d’utiliser différents langages de programmation si tu interroges à chaque fois ce reverse proxy qui te renvoie un cache (et encore, il faut être sûr que le cache vient bien du reverse proxy).

Donc plusieurs cas possibles:

Tu n’arrives pas à trouver les IP d’origine car le service est protégé/privé/inaccessible au web public. Il faut passer par le reverse proxy obligatoirement => Game Over.
Tu arrives à trouver les IP d’origine, mais le service derrière répond quand même avec un cache. Ça veut dire que le cache ne vient pas du reverse proxy => Game Over (ou pas, il faut voir).
Tu arrives à trouver les IP d’origine et tu as la version en temps réel = Win.

Mais c’est difficile de te répondre sans avoir plus de détails

system · Février 8, 2023, 12:58

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.