Besoin de conseil SVP

Bonjour,

je souhaite récupérer régulièrement quelques annonces + photos sur un site d’annonces (sans les coordonnées vendeur ni envoi de mail ou formulaire) et j’aimerai savoir si c’est toujours possibles de nos jours sachant que les sites sont de plus en plus protégés contre les bots ?

Je sais coder en php et javascript.
D’après mes lectures, j’ai pensé utiliser phantomJS + un script php que je coderai une fois les pages téléchargées.

Concernant les adresses IP, je me demande si c’est mieux de passer par un hébergement mutualisé + location d’adresses IP ou utiliser une machine en local + connexion partagée depuis un mobile en 4g ?

Pour les délais entre chaque annonce, quel serait un délai raisonnable pour éviter un blocage.

Merci.

Salut @corgan56,

Je te conseillerais d’utiliser Puppeteer et d’utiliser un user-agent comme celui de ton navigateur favoris ou celui-ci :

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36

De cette façon, tu seras reconnu comme sur un navigateur lambda ou une personne qui veut surfer normalement sur le site.

Maxence.

Merci,

concernant l’hébergement, sur serveur ou en local de préférence ?
Pas besoin d’une liste de user-agent ni liste d’adresse IP ?

Je te conseille un petit VPS chez OVH pour l’hébergement, ça suffira.

L’IP sera celle de ta machine louée.

PhantomJS n’est plus, plus maintenu, plus en vie, son principal auteur l’a annoncé le 13 Avril 2017:
https://groups.google.com/d/msg/phantomjs/9aI5d-LDuNE/5Z3SMZrqAQAJ

I want to make an announcement.

Headless Chrome is coming - Chrome Platform Status

(https://news.ycombinator.com/item?id=14101233)

I think people will switch to it, eventually. Chrome is faster and more stable than PhantomJS. And it doesn’t eat memory like crazy.

Donc tu peux dores et déja oublier CasperJS+PhantomJS, et switcher sur Chrome Headless via Nodejs + Puppeteer.

Inutile de multiplier les technos, tu peux tout faire en Nodejs, sans passer par PHP, ça serait sinon te compliquer la vie.

Pour l’histoire du serveur en local ou dédié , ça je ne peux pas te dire, ça dépend de tes besoins, en terme de récurrence , de dispo des données, de ton budget, etc

Malheureusement, uniquement jouer sur un ou des user-agents + quelques IP en rotation ne suffit plus toujours. Pas besoin de serveur dédié pour cette tâche, et pas besoin de changer de serveur à chaque fois que tu veux changer d’IP, tu peux simplement acheter quelques proxies.

Recherche checky + LBC , c’est compliqué mais ça marche
A quand chez FIRST édition : LE B** C*** pour les NULS ? Bisous

Bonjour,

Tu peux utiliser Puppeteer via Apify qui te permet de prendre des proxies et d’avoir tout au même endroit. C’est très facile à utiliser et mettre en place.

Hello,

Google cloud plateforme propose 300 E de credit pour un an.

Si j’ai bien compris, Apify permet de récupérer les données mais pas les photos ?
Dans ce cas obligé de passer par un script maison pour récupérer les photos et les classer dans dossier ?

Est-ce que ce site d’annonce va également être bloquant pour le téléchargement des photos en demandant un captcha, ou c’est différent par rapport aux données ?

Merci.