Je sais que le sujet a été abordé, mais je me permets de reposter ici.
Je chercher à pouvoir scrapper le site Société.com afin de ressortir les infos du types :
Coordonnées de la personne (au moins le nom, tél, et si accessible l’email)
Scraper les infos par région ou par code APE notamment !
Est ce réalisable et si oui, des astuces ? conseils ? ou personnes à me conseiller de contacter ?
Scraper ce site, oui c’est réalisable, toutefois il faut éclaircir ces points:
Peux-tu coder et scripter, ou est-ce que tu préfères l’utilisation d’outils déjà existants?
Si tu peux coder, n’importe quel language/tech fera le job, du moment que tu sais parser le HTML résultants des pages à browser (avec sélecteurs XPath ou CSS).
Si tu ne sais pas coder, regardes du coté de la Toolbox du GH
Je ne crois pas que tu puisses avoir accès ni aux numéros de tel (système de conciergerie via tel payant), ni aux emails, ceux-ci ne sont pas divulgués par le site…:
Au final si tu voulais absolument récupérer l’info tel et/ou email, la source est mal choisie, et tu devrais te réorienter vers un service payant tel que Societeinfo (très utile). Leur API est top pour les infos dont tu as besoin.
L’idée est de faire coder ou de trouver quelque chose de tout prêt (si ca existe) car je ne suis pas du tout bon en dev !
je pense que tu as raison, nous n’avons pas accès à des données telles que emails, tél… ce qui au final me semble logique… mais je demandais sait on jamais.
L’intérêt de ce que je souhaite faire, est de pouvoir contacter tel ou mail, une cat de gens qui ont un Ecommerce !
Pas pour ce qui concerne une des info principale qui intéresse @Romfive, à savoir l’email … La base Sirene c’est un bon point d’entrée, mais n’est pas suffisante.
Après, pour en revenir au sujet du scraping, il faut toujours se poser les questions suivantes avant de se lancer dans la moindre automatisation de scrap:
Est-ce que les informations que je recherche sont disponibles (affichées ou présentes dans le code source) sur le(s) site(s) ciblé(s) ? Dans le cas présent, pas de num de tel ni d’email sur la source, donc non pertinent.
Est-ce que le temps passé à dev la solution de scraping sera plus ou moins coûteux que l’utilisation d’un service comme Societeinfo ?
Ici l’utilisation de data en provenance de Societeinfo est sans aucun doute plus pertinent
Pour ouvrir les CSV, le plus pratique c’est Libreoffice. Si les fichiers sont trop lourds, tu peux utiliser CSV Splitter pour les couper en plus petits : https://www.erdconcepts.com/dbtoolbox.html
Après de toute manière quand tu vas les utiliser, j’imagine que tu passeras pas une base de données donc la taille ne sera plus un problème.