Scraping pages jaunes via code PHP

jean4 · Mars 20, 2019, 2:13

Bonjour les Growth Hackers,

Voilà ma situation :
J’ai un script de scraping des pages jaunes sur une liste de pages ciblées qui tournait bien il y a 2 ans, mais qui ne fonctionne plus. J’utilise la librairie PHP CURL ou bien la librairie simple dom parser mais dans les 2 cas ça ne marche pas les pages jaunes me renvoient un code 403 Forbidden. J’envoie pourtant des entêtes avec différents types d’user agent pour simuler un vrai navigateur mais ça ne marche pas.
Quelqu’un a t-il une solution à ce problème ?

Merci !

pduhaut · Mars 25, 2019, 11:02

Bonjour,

403 c’est une interdiction. Ton script doit se faire repérer. Utilises-tu des proxies ?

embargo · Mars 25, 2019, 3:58

pi2r3 avait visiblement trouvé une solution pour contourner datadome.

jean4 · Mars 27, 2019, 7:30

Bonjour et merci de ta réponse,

Que j’utilise un proxy ou pas, ça donne le même résultat (erreur 403)

Portekoi · Mars 28, 2019, 9:17

Tu as un exemple d’Url? Quand tu y vas avec ton navigateur, cela fonctionne? Pas de 403?

jean4 · Mars 28, 2019, 11:03

N’importe quelle URL d’un professionnel sur pages jaunes.
Avec le navigateur ça fonctionne bien pas d’erreur.

LoulouL · Mars 29, 2019, 7:13

à mon avis ils ont un algo qui analyse bien plus d’infos que le simple useragent …
JS activé, vitesse de chargement, mouvement de la souris, résolution …
enfin si j’étais eux je regarderai à minima ces paramètres en plus de la réputation IP etc etc

Enfin si j’étais eux je me paierai des experts en sécurité informatique pour éviter les petits malins lol

ScrapingExpert · Mars 29, 2019, 9:57

Surtout que c’est Datadome qui protégeait les PJ aux dernières nouvelles, bonne chance

LoulouL · Mars 29, 2019, 10:09

mouahaha …
ouai bon courrage