je souhaite récupérer régulièrement quelques annonces + photos sur un site d’annonces (sans les coordonnées vendeur ni envoi de mail ou formulaire) et j’aimerai savoir si c’est toujours possibles de nos jours sachant que les sites sont de plus en plus protégés contre les bots ?
Je sais coder en php et javascript.
D’après mes lectures, j’ai pensé utiliser phantomJS + un script php que je coderai une fois les pages téléchargées.
Concernant les adresses IP, je me demande si c’est mieux de passer par un hébergement mutualisé + location d’adresses IP ou utiliser une machine en local + connexion partagée depuis un mobile en 4g ?
Pour les délais entre chaque annonce, quel serait un délai raisonnable pour éviter un blocage.
I think people will switch to it, eventually. Chrome is faster and more stable than PhantomJS. And it doesn’t eat memory like crazy.
Donc tu peux dores et déja oublier CasperJS+PhantomJS, et switcher sur Chrome Headless via Nodejs + Puppeteer.
Inutile de multiplier les technos, tu peux tout faire en Nodejs, sans passer par PHP, ça serait sinon te compliquer la vie.
Pour l’histoire du serveur en local ou dédié , ça je ne peux pas te dire, ça dépend de tes besoins, en terme de récurrence , de dispo des données, de ton budget, etc
Malheureusement, uniquement jouer sur un ou des user-agents + quelques IP en rotation ne suffit plus toujours. Pas besoin de serveur dédié pour cette tâche, et pas besoin de changer de serveur à chaque fois que tu veux changer d’IP, tu peux simplement acheter quelques proxies.
Tu peux utiliser Puppeteer via Apify qui te permet de prendre des proxies et d’avoir tout au même endroit. C’est très facile à utiliser et mettre en place.
Si j’ai bien compris, Apify permet de récupérer les données mais pas les photos ?
Dans ce cas obligé de passer par un script maison pour récupérer les photos et les classer dans dossier ?
Est-ce que ce site d’annonce va également être bloquant pour le téléchargement des photos en demandant un captcha, ou c’est différent par rapport aux données ?