Récupérer sous format csv data d'un annuaire

Bonjour,

je cherche un moyen de récupérer les données sur le site :
https://www.agencedpc.fr/organismes-de-dpc-rechercher-un-organisme

j’effectue ma selection multicritères, et je dois récupérer les infos suivantes:
N°, Sigle, Adresse, Contact

Par ailleurs, pour chaque organisme il existe un lien « fiche organisme » qui renvoi vers une fiche plus détaillée de chaque organisme, ou je dois récupérer également les infos suivantes:
courriel, statut ( type d entreprise), type de prestations proposées et professions visées par l’organisme.

Comment mettre en place ce scrap^multi niveau, et avec quel outil ?

Merci les growth :slight_smile: a très vite

Il faudrait que tu nous expliques un problème particulier que tu rencontres dans ton scraping.

Si c’est pour avoir la procédure entière ou le fichier directement, il faudrait que tu postes dans la catégorie Jobs.

Pour les outils : La toolbox du growth 🧰
Pour apprendre le scraping : Scraping - Growthhacking.fr | Communauté française de growth hacking

2 « J'aime »

Merci Camille.

je cherche le tool le plus adapté pour ma demande et le process à suivre pour mettre en place ce scrapping.

Merci

Pour compléter la réponse de Camille, ce forum est un espace de partage et d’entraide sur des sujets bien précis. Nous ne construisons pas de process entiers, sinon rdv dans la catégorie Jobs pour demander une prestation. [edit: je vois que tu viens de le faire :wink: ]

Pour ce qui est du tool le plus adapté, commence par regarder ceux fournis dans La toolbox du growth hacker :gem: comme indiqué par Camille. Ton message ne donne pas très envie de t’aider, montre au moins que tu t’es un peu renseigné à l’avenir !

Mais je vais quand même t’orienter : le plugin webscraper.io est efficace quand il y a du scraping multi-niveaux, mais pas sûr que ce soit adapté pour ce site en ajax. Sinon renseigne toi sur les flux XHR, tu peux utiliser cette technique pour ce site en particulier.

Bon courage :wink:

1 « J'aime »

Les non outils nocode (webscraper, scrapebox etc…) sont rarement optimisé pour faire du scraping récurrent toutes les X (quoique peut-être Zennoposter), ils sont plus fait pour du scraping one shot.

Après si tu es un peu plus tech, tu pourrais regarder : https://apify.com/

Merci Camille.
C’est bon à savoir. mes skills en scraping sont au niveau zero pour le moment car j’utilisais essentiellement des tools saas basiques. Cependant ce besoin étant ponctuel, et mon temps limité, je ne peux pas me concentrer à plein temps dans un apprentissage complet mais suis capable de chercher si quelqu un me donne les pistes, étant donné que ce projet n’est pas en soit très technique.
Je cherche de ci de la mais il m’est difficile de choisir un plugin ou tool nocode sans savoir si celui ci peut concrètement effectuer les tâches demandées, d’ou ma demande auprès de la communauté. Bien entendu, j’ai posté dans la partie " job" si quelqu’un peut me faciliter le process je suis preneur.

Merci pour vos réponses.

Importfromweb pour spreadsheet ce serait pas mal dans ton cas, mais pas très stable pour de la quantité.

2 « J'aime »

Bonjour,

effectivement, ce tool semble correspondre à ma requete !
merci !

Est-ce que IMPORTFROMWEB gère les requêtes HTTP de type POST, avec passage de headers bien spécifiques?

Si oui, ça peut faire le job, sinon non… :confused:

Très bonne question, je n’en sais strictement rien !

Ceci est réalisable avec Google Cloud Function

  • envoi des requêtes HTTPS de type POST, avec configuration spécifique des headers
  • gestion des réponses (parsing HTML et JSON)
  • renvoi des données en format exploitable
  • intégration Google Spreadsheet
  • déclenchement MAJ manuel ou automatique

Exemple de données récupérées depuis la recherche:

Exemple de données récupérées depuis les pages détails:

2 « J'aime »

cc @Mapi importjson gère le POST je crois ?

1 « J'aime »

Oui ça marche. J’ai regardé rapidement, il faut procéder en 2 étapes.
1- la réponse du formulaire renvoie un html dans un JSON, donc il faut parser pour récupérer les identifiants de chaque résultat.
2- À partir de chaque identifiant, on peut lancer une requête qui retourne le html avec toutes les infos

ImportJSON couplé à ImportFromWeb font le job sans développement additionnel, par contre il faut que je prenne du temps pour mieux analyser les requêtes. @Growth75001, je te contacte en privé car effectivement c’est plus une prestation

1 « J'aime »

En ce qui concerne le POST, on peut passerun cUrl en lieu et place de l’url sur les deux add-ons.
C’est pas public car je ne peux pas encore garantir assez de sécurité si c’est utilisé pour des données confidentielles

1 « J'aime »

Tu peux préciser ce que tu appelles quantité @Camille s’il te plaît :smile: ? Car on commence à opter pour la piste Google Maps Email Extractor (2000 lignes en moyenne) + enrichissement avec SIRET/SIREN par importfromweb + Hunter via API dans spreadsheet (en s’appuyant sur le tutoriel de @Joyce)
Merci par avance :v:

1 « J'aime »