Scap Mail Annuaire Santé

Bonjour à tous,

Je débute en scraping et je suis entrain d’essayer de scraper le site https://annuaire.sante.fr/ avec Web Scraper.

Le soucis est que le moteur de recherche limite à 10 pages de résultat… Est-ce que vous avez une idée de comment bypasser cette limite de 10 pages?

Bonne journée à vous,

Je ne sais pas si tu as vu mais on peut telecharger directement certaines datas :

https://annuaire.sante.fr/web/site-pro/extractions-publiques

1 J'aime

Exact, avec un lien de DL direct ici:
https://annuaire.sante.fr/web/site-pro/extractions-publiques?p_p_id=abonnementportlet_WAR_Inscriptionportlet_INSTANCE_HTvrOPqkIM6l&p_p_lifecycle=2&p_p_state=normal&p_p_mode=view&p_p_cacheability=cacheLevelPage&_abonnementportlet_WAR_Inscriptionportlet_INSTANCE_HTvrOPqkIM6l_nomFichier=PS_LibreAcces_202005100840.zip

Bon après, seul prob, c’est comment ouvrir et « parser » ce fichier pour un « débutant », fichier de plus de 1.5M de lignes, qui fait plus de 600MB en taille.

C’est traitable via un script où on gère le fichier en « read stream », pour injecter le tout dans une base de données qu’on pourra requêter à volonté par la suite, plutôt que de galérer avec un Excel gigantesque.

1 J'aime