Scraper les infos Société.com

Hello

Je sais que le sujet a été abordé, mais je me permets de reposter ici.

Je chercher à pouvoir scrapper le site Société.com afin de ressortir les infos du types :
Coordonnées de la personne (au moins le nom, tél, et si accessible l’email)
Scraper les infos par région ou par code APE notamment !

Est ce réalisable et si oui, des astuces ? conseils ? ou personnes à me conseiller de contacter ?

Merci Beaucoup

Hello,

Scraper ce site, oui c’est réalisable, toutefois il faut éclaircir ces points:

  • Peux-tu coder et scripter, ou est-ce que tu préfères l’utilisation d’outils déjà existants?
  • Si tu peux coder, n’importe quel language/tech fera le job, du moment que tu sais parser le HTML résultants des pages à browser (avec sélecteurs XPath ou CSS).
  • Si tu ne sais pas coder, regardes du coté de la Toolbox du GH
  • Je ne crois pas que tu puisses avoir accès ni aux numéros de tel (système de conciergerie via tel payant), ni aux emails, ceux-ci ne sont pas divulgués par le site…:

  • Au final si tu voulais absolument récupérer l’info tel et/ou email, la source est mal choisie, et tu devrais te réorienter vers un service payant tel que Societeinfo (très utile). Leur API est top pour les infos dont tu as besoin.
2 J'aimes

Merci pour ton retour !

L’idée est de faire coder ou de trouver quelque chose de tout prêt (si ca existe) car je ne suis pas du tout bon en dev !
je pense que tu as raison, nous n’avons pas accès à des données telles que emails, tél… ce qui au final me semble logique… mais je demandais sait on jamais.

L’intérêt de ce que je souhaite faire, est de pouvoir contacter tel ou mail, une cat de gens qui ont un Ecommerce !

Go Societeinfo , tu y trouveras peut être ton bonheur.

2 J'aimes

Parfois une bonne liste achetée sur societeinfo vaut un gain de temps supérieur que le scraping. Question de stratégie.

1 J'aime

Pas besoin de scrapper.
La majorité des infos sont en accès libre et gratuit via opendata (au format csv de mémoire) :

Pas pour ce qui concerne une des info principale qui intéresse @Romfive, à savoir l’email … La base Sirene c’est un bon point d’entrée, mais n’est pas suffisante.

Après, pour en revenir au sujet du scraping, il faut toujours se poser les questions suivantes avant de se lancer dans la moindre automatisation de scrap:

  • Est-ce que les informations que je recherche sont disponibles (affichées ou présentes dans le code source) sur le(s) site(s) ciblé(s) ? Dans le cas présent, pas de num de tel ni d’email sur la source, donc non pertinent.

  • Est-ce que le temps passé à dev la solution de scraping sera plus ou moins coûteux que l’utilisation d’un service comme Societeinfo ?

Ici l’utilisation de data en provenance de Societeinfo est sans aucun doute plus pertinent :slight_smile:

1 J'aime

Ouai ca c’est top sauf que bon … je viens de télécharger un fichier csv qui fait 5Go… pour l’ouvrir bonjour ^^

Pour ouvrir les CSV, le plus pratique c’est Libreoffice. Si les fichiers sont trop lourds, tu peux utiliser CSV Splitter pour les couper en plus petits : https://www.erdconcepts.com/dbtoolbox.html

Après de toute manière quand tu vas les utiliser, j’imagine que tu passeras pas une base de données donc la taille ne sera plus un problème.

2 J'aimes

Un autre tool très cool pour manipuler les CSV ou autre xls un peu trop lourds : https://openrefine.org/ !

Merci pour cet outil !

Des idées pour scraper les noms des dirigeants, noms sociétés , CA, secteurs sur :

https://www.verif.com/liste-entreprises/search=v/25/ca/d/

Merci

Etant sur mac c’est pas simple de trouver des tools pour spliter les fichiers…

Hello,
Installe une machine virtuelle (Windows, Linux) et tu pourras tester les tools pas compatible avec ton mac.