Besoin d'aide pour Scraper Via-Trajectoire

Thoschmutz · Juin 24, 2021, 1:28

Salut tout le monde,

J’aimerais scrapper ce site : ViaTrajectoire accès Particuliers | Site officiel | Orientation en ESMS pour personnes en situation de handicap

J’arrive bien à scraper les sites statiques avec Web Scraper. Mais là, l’url reste la même quelque soit la recherche. Et je bloque complètement.

Comment feriez-vous pour scrapper ce site ? (en no code si possible ?? )

J’aimerais récupérer :

la liste de tous les établissements médico-sociaux,
leur adresse,
Les informations présentes dans la catégorie « Activités d’accompagnement, de réadaptation ou éducatives » (infos qui se trouvent dans la popup « + Détails »)
et le nom, l’email et le numéro de téléphone du directeur (infos qui se trouvent dans la popup « + Détails »).

J’espère que certains d’entre vous se sentiront inspirés par ce sujet

Merci d’avance pour votre aide.

Thomas

TheDuff · Juin 24, 2021, 7:01

Passe par du Selenium + python, ça se fait très bien.

ScriptDaddy · Juin 25, 2021, 9:12

Bonjour Thomas,

tu t’es assuré que ces données n’étaient pas chez data gouv ? Ca ressemble à des données publiques.

lorent · Juin 25, 2021, 11:44

Hello, une partie des données sont téléchargeables sur finess.
Sinon il y a un JSON dans la console de ton navigateur.

Pour récupérer les URL, il faut lire les deux pages par 50 items et par département et les enregistrer dans un fichier HAR.

Thoschmutz · Juillet 1, 2021, 9:53

Merci pour vos réponses !

TheDuff, ça a l’air sympa selenium + Python, mais je pars de trop loin en code …

ScriptDaddy, je n’ai pas trouvé ces données sur data gouv, mais j’en ai trouvé d’autres dont j’avais besoin. Merci du tuyau !

lorent, super pratique ce que tu m’as fait voir. Merci ! Aurais-tu une technique simple pour extraire uniquement les données que l’on souhaite du fichier HAR ?

Bonne journée à tous