Scraper les infos Société.com


#1

Hello

Je sais que le sujet a été abordé, mais je me permets de reposter ici.

Je chercher à pouvoir scrapper le site Société.com afin de ressortir les infos du types :
Coordonnées de la personne (au moins le nom, tél, et si accessible l’email)
Scraper les infos par région ou par code APE notamment !

Est ce réalisable et si oui, des astuces ? conseils ? ou personnes à me conseiller de contacter ?

Merci Beaucoup


#2

Hello,

Scraper ce site, oui c’est réalisable, toutefois il faut éclaircir ces points:

  • Peux-tu coder et scripter, ou est-ce que tu préfères l’utilisation d’outils déjà existants?
  • Si tu peux coder, n’importe quel language/tech fera le job, du moment que tu sais parser le HTML résultants des pages à browser (avec sélecteurs XPath ou CSS).
  • Si tu ne sais pas coder, regardes du coté de la Toolbox du GH
  • Je ne crois pas que tu puisses avoir accès ni aux numéros de tel (système de conciergerie via tel payant), ni aux emails, ceux-ci ne sont pas divulgués par le site…:

  • Au final si tu voulais absolument récupérer l’info tel et/ou email, la source est mal choisie, et tu devrais te réorienter vers un service payant tel que Societeinfo (très utile). Leur API est top pour les infos dont tu as besoin.

#3

Merci pour ton retour !

L’idée est de faire coder ou de trouver quelque chose de tout prêt (si ca existe) car je ne suis pas du tout bon en dev !
je pense que tu as raison, nous n’avons pas accès à des données telles que emails, tél… ce qui au final me semble logique… mais je demandais sait on jamais.

L’intérêt de ce que je souhaite faire, est de pouvoir contacter tel ou mail, une cat de gens qui ont un Ecommerce !


#4

Go Societeinfo , tu y trouveras peut être ton bonheur.


#5

Parfois une bonne liste achetée sur societeinfo vaut un gain de temps supérieur que le scraping. Question de stratégie.


#6

Pas besoin de scrapper.
La majorité des infos sont en accès libre et gratuit via opendata (au format csv de mémoire) :


#7

Pas pour ce qui concerne une des info principale qui intéresse @Romfive, à savoir l’email … La base Sirene c’est un bon point d’entrée, mais n’est pas suffisante.

Après, pour en revenir au sujet du scraping, il faut toujours se poser les questions suivantes avant de se lancer dans la moindre automatisation de scrap:

  • Est-ce que les informations que je recherche sont disponibles (affichées ou présentes dans le code source) sur le(s) site(s) ciblé(s) ? Dans le cas présent, pas de num de tel ni d’email sur la source, donc non pertinent.

  • Est-ce que le temps passé à dev la solution de scraping sera plus ou moins coûteux que l’utilisation d’un service comme Societeinfo ?

Ici l’utilisation de data en provenance de Societeinfo est sans aucun doute plus pertinent :slight_smile:


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr