J’ai besoin de votre aide ! Dans le cadre d’une campagne que je dois lancer d’ici peu, j’aimerais scrapper les membres de ce site https://www.gifen.fr/annuaire .
Mon objectif serait de scrapper les informations suivantes, idéalement en CSV :
Oui pas de soucis, voici le détail du workflow que j’ai utilisé pour scraper l’annuaire des entreprises sur le site gifen.fr. Tu pourras l’adapter à d’autres structures similaires si besoin.
Étapes du workflow :
Analyse de la pagination du site
J’ai commencé par comprendre comment les pages de l’annuaire sont structurées.
Génération des URLs de pagination (via un nœud Code)
Un nœud Code génère dynamiquement toutes les URLs de chaque page de l’annuaire.
Scraping des pages de pagination
Chaque page est ensuite scrapée pour récupérer les liens vers les fiches entreprises.
Stockage des URLs dans un Google Sheet
Toutes les URLs récupérées sont stockées dans un Google Sheet pour faciliter l’organisation.
Scraping de chaque fiche entreprise
Le workflow récupère ensuite les infos principales de chaque entreprise à partir de sa fiche individuelle : nom, adresse, SIRET, téléphone, email, site web, etc.
Tout est fait sans API, en nettoyant le HTML directement à l’aide de nœuds Code.
Particularités :
Tu n’as besoin d’aucune API
Workflow 100 % n8n (avec quelques nœuds Code)
Structure facilement réutilisable sur d’autres annuaires
J’ai essayé de reproduire le workflow que tu as réalisé, sans succès !
J’aimerais réitérer l’exercice mais n’arrives à répliquer l’automatisation via N8n.
Bonjour J’aurais besoin du même fichier avec la description de l’activité telle que sur le site. @ThomasBO, peux-tu m’aider stp ? Par ailleurs, je serai intéressé par une formation pour utiliser des outils de scrapping comme N8N ou Octoparse. Merci !