Bonjour à tous,
Je suis débutant en développement (quelques notions php, javascript, mysql) et j’aimerais créer un crawler et scraper.
Cela me donne pas mal d’idées et m’intéresse bcp…
Aussi, j’ai pas mal parcouru les pages de Growthhacking.fr et je m’y perd un peu => phantomjs, scrapeBox, kimono, scrapy (vagrant) et j’en passe. J’aimerais avoir quelques conseils afin de ne pas trop m’éparpiller, ni de réinventer la roue.
J’aimerais qqch de gratuit si possible, quitte à mettre les mains dans ruby, java ou python.
-> crawler un site,
-> si la page visite répond à un critère (page produit par exemple)
-> cette pages est scrapée (comme le titre, une référence, une photo, un prix …)
-> puis on passe à une autre page…
Ce qui permettra de mettre en forme des données d’autres sites, de les croiser afin de créer un tout nouveau contenu, condensé, regroupant donc différentes sources.
Le format de sortie peut être un CSV tout bête.
Si une solution clé en main existe, comme un logiciel pourquoi pas, mais je n’ai pas trop de « budget »
Merci d’avance pour votre aide =)