Bonjour à tous,
J’ai besoin de votre aide ! Dans le cadre d’une campagne que je dois lancer d’ici peu, j’aimerais scrapper les membres de ce site https://www.gifen.fr/annuaire .
Mon objectif serait de scrapper les informations suivantes, idéalement en CSV :
- Nom d’entreprise
- Localisation
- Code SIRET :
- Code NAF :
- Type de structure :
- Site internet
- Téléphone :
- Mail :
- Nom de l’interlocuteur
- Fonction :
Qui pourrais m’aider sur ce sujet ?
Merci d’avance
Salut, c’est possible avec N8N si tu veux
1 « J'aime »
Je peux le faire là rapidement sur n8n ou te fournir le workflow si tu veux
1 « J'aime »
Tiens, tu peux retrouver le fichier CSV Sur ce lien-là : https://tbonhomme.gumroad.com/
2 « J'aime »
Bonjour Thomas.
Merci beaucoup pour ton retour et pour ton aide.
Je veux bien que tu me partages me workflow n8n.
Bonne journée
Oui pas de soucis, voici le détail du workflow que j’ai utilisé pour scraper l’annuaire des entreprises sur le site gifen.fr. Tu pourras l’adapter à d’autres structures similaires si besoin.
Étapes du workflow :
-
Analyse de la pagination du site
J’ai commencé par comprendre comment les pages de l’annuaire sont structurées.
-
Génération des URLs de pagination (via un nœud Code)
Un nœud Code
génère dynamiquement toutes les URLs de chaque page de l’annuaire.
-
Scraping des pages de pagination
Chaque page est ensuite scrapée pour récupérer les liens vers les fiches entreprises.
-
Stockage des URLs dans un Google Sheet
Toutes les URLs récupérées sont stockées dans un Google Sheet pour faciliter l’organisation.
-
Scraping de chaque fiche entreprise
Le workflow récupère ensuite les infos principales de chaque entreprise à partir de sa fiche individuelle : nom, adresse, SIRET, téléphone, email, site web, etc.
Tout est fait sans API, en nettoyant le HTML directement à l’aide de nœuds Code
.
Particularités :
- Tu n’as besoin d’aucune API
- Workflow 100 % n8n (avec quelques nœuds
Code
)
- Structure facilement réutilisable sur d’autres annuaires
- Aucune dépendance externe
Voilà le lien : Workflow scrap