Scraping d'un annuaire d'associations

Bonjour à tous,

Pour une offre de service à petit prix je souhaite contacter des professionnels et surtout des associations.
L’annuaire des associations à Paris qui regroupe quelques milliers d’entre elles est le suivant:
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso

Je souhaiterais extraire adresse, nom de contact, telephone et email quand ils sont disponibles.
J’ai l’add on chrome instant data scraper mais il ne fonctionne que page par page après la sélection des associations une à une et rarement bien.
J’ai lancé email extractor mais il ne trouve rien même si il est supposé faire une recherche en profondeur du site.
J’ai essayé l’excellente methodologie proposée par Camille sur un autre fil, id est remonter à robots.txt mais je n’arrive pas à trouver le sitemap donc impossible de récupérer d’éventuelles catégories intéressantes.

J’ai d’ailleurs le même souci avec la bonne boîte, ma cible suivante!

Merci par avance pour votre aide.

1 « J'aime »

Hello,

As-tu essayé de le faire avec Webscraper ?

Et par ailleurs, est-ce que tu as des exemples de pages avec email? J’en ai fais une vingtaine à la main, je n’ai trouvé qu’une page avec un email situé au milieu de la description de l’association, et une autre avec l’email placé dans la balise réservée au fax.

1 « J'aime »

Hello,
Je débute seulement sur webscraper je suis dessus depuis quelques jours : je vais essayer de tester cela ce week end mais je trouve webscraper pas si user friendly comme environnement, bref je rame…
Pour ce qui est de ce site d’associations, il y a plusieurs cas de figure: parfois il n’y a pas d’email disponible mais la possibilité d’envoyer un message à travers la plate forme de la mairie (j’imagine qu’il faut savoir coder pour remplir cela de maniere automatique et envoyer), parfois l’email est renseigné directement dans la description de l’association, en enfin a defaut il y a un site internet sur lequel il faudrait aller chercher un email de contact…
Les profils varient enormement en fonction des assoces, les plus grosses type sports par exemple sont plus organisees et les informations se trouvent plus facilement, pour les plus petites trouver un nom ou un téléphone relève parfois du miracle! Ton approximation est correcte il y a environ 10% d’emails renseignés correctement en direct et ensuite il faut approfondir avec le site…
C’est un exercice assez complet et pas évident pour un rookie comme moi!

Exemples :
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso&id=9089
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso&id=968
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso&id=183996
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso&id=166815
http://w35-associations.apps.paris.fr/searchasso/jsp/site/Portal.jsp?page=searchasso&id=10561

A ce stade, il te reste deux solutions:

  • tenter de monter en compétence sur Webscraper (pas évident si tu as peu de connaissances techniques au début, car même si il semble s’agit d’un simple tool « Point & click » tu verras vite les limitations arriver)
  • déléguer l’automatisation de l’extraction soit en interne si tu possèdes une équipe de dev, soit en externe avec des freelancers (Malt, Upwork, ou membres de notre communauté ici)

Ou encore, fouiller dans la toolbox du Growthhacker que tu peux trouver sur ce site: