Scraping pages jaunes via code PHP

Bonjour les Growth Hackers,

Voilà ma situation :
J’ai un script de scraping des pages jaunes sur une liste de pages ciblées qui tournait bien il y a 2 ans, mais qui ne fonctionne plus. J’utilise la librairie PHP CURL ou bien la librairie simple dom parser mais dans les 2 cas ça ne marche pas les pages jaunes me renvoient un code 403 Forbidden. J’envoie pourtant des entêtes avec différents types d’user agent pour simuler un vrai navigateur mais ça ne marche pas.
Quelqu’un a t-il une solution à ce problème ?

Merci !

Bonjour,

403 c’est une interdiction. Ton script doit se faire repérer. Utilises-tu des proxies ?

pi2r3 avait visiblement trouvé une solution pour contourner datadome.

Bonjour et merci de ta réponse,

Que j’utilise un proxy ou pas, ça donne le même résultat (erreur 403)

Tu as un exemple d’Url? Quand tu y vas avec ton navigateur, cela fonctionne? Pas de 403?

N’importe quelle URL d’un professionnel sur pages jaunes.
Avec le navigateur ça fonctionne bien pas d’erreur.

à mon avis ils ont un algo qui analyse bien plus d’infos que le simple useragent …
JS activé, vitesse de chargement, mouvement de la souris, résolution …
enfin si j’étais eux je regarderai à minima ces paramètres en plus de la réputation IP etc etc

Enfin si j’étais eux je me paierai des experts en sécurité informatique pour éviter les petits malins :wink: lol

1 « J'aime »

Surtout que c’est Datadome qui protégeait les PJ aux dernières nouvelles, bonne chance :slight_smile:

mouahaha …
ouai bon courrage

1 « J'aime »