Scrappers CasperJS - Besoin de conseil pour cron et BD

djiby · Mai 28, 2017, 11:04

Bonjour à tous,

J’étais niveau 0 du scrapping il y a peu. Je suis niveau 1 - en bonne partie grace a ce que j’ai lu ici et a certains tutos. Merci

J’ai donc 5 petits scrappers CasperJS qui recuperent des infos sur des societes depuis 5 sites (sources) différents tout en respectant les robots.txt
J’ai fait un premier run/scrap ou j’ai sauvé les datas dans des fichiers. J’ai aggregé les 5 fichiers ‘a la mano’ :-0
J’étais un homme heureux avec une bonne grosse base,… jusqu’a ce que me pose les questions ‘de la vrai vie ‘ - cron, BD,…

En route donc pour le niveau ‘2’.

) Premiere question: CRON sur JS - vous recommandez quoi ?
Les sites ajoutent des nouvelles societes chaque jour - j’ai donc besoin de faire tourner mes scrappers periodiquement. Donc mettre en place l’équivalent d’un cron sur les 5 scrappers. Je ne sais pas trop ce qui est le mieux d’utiliser - je suis preneur de conseils et autres ‘best practises’.

) Deuxième question: lien vers une BD avec du CasperJS.
Vous faites comment pour mettre a jour vos bases mongo avec des scrappers a base de Casper ?
Vous faite des scrappers qui mettent les datas dans des fichiers (JSON ou csv) puis vous avez un autre bout de code qui recupere les datas (‹ brutes ›) et met la base (mongo) a jour en fonction OU vous mettez la base a jour direct depuis le scrapper lui meme ?

Je m’oriente vers du node + mongoose (ou equivalent) + spooky + casper pour aller scrap les datas et remplir la base directement.
Est ce que je fais fausse route ? Comment faites-vous ?

) Troisième question: solution élégante pour éviter de rescrapper des choses qu’on a deja?
Les infos sur les societes ne changent quasi jamais - du coup je n’ai aucun interet a rescrapper les datas correspondant a une société que j’ai deja (au moins depuis une meme URL source) - et c’est qd meme plus nice pour le site source.
Pour éviter de rescrapper ces infos - j’imaginais faire un mini web service au dessus de ma base, que j’appelle depuis casper et, qui me permettra de savoir si j’ai deja scrappé cette URL (ou cette societe)- si c’est le cas je passe.
Idem - est-ce que je fais fausse route ? Est-ce que je suis en mode ‘charrue pour labourer le pot de fleur’ ? Quels sont les ‘best practises’?

Suite à votre aide, je repasse bientot pout le Pour le niveau 3 (proxy, cookies, captcha,…) et le final boss (Distill Networks)