Scrapping d'une map [beginner]

Bonjour à tous,

Avant de commencer, je dois préciser que je n’ai aucun background tech. Je ne sais pas du tout coder …

J’essaye d’obtenir la liste des medecins du site suivant : OnlineDoctor
En regardant le code source de la page je vois qu’il y a énormément d’infos sur les medecins :
Nom
Prénom
Adresse
Email

D’autres infos aussi mais qui m’intéressent moins.

Sauriez vous me dire comment transformer le code HTML en quelque chose d’utilisable ? Idéalement une liste que je puisse transposer sur excel ?

Merci pour vos feedbacks

Sébastien

1 « J'aime »

tiens, utilise le site map :
https://doctors.onlinedoctor.cloud/sitemap.xml
tu as toutes les url des docteurs
après puppeteer

il y a plus simple, sans parcourir toutes les pages du site avec un scrapper :

Tu récupères le json contenu dans le code source de la page (view-source:h ttps://doctors.onlinedoctor.cloud/de/t/de/map-iframe) que tu as vu.
Il y a toutes les données dedans.
Tu le converti en tableau (juste la liste de « doctors ») si tu préfères.
Ça te fait une jolie liste de 537 éléments :

2 « J'aime »

Merci à tous les 2 pour votre aide (@Morph @Sonic)
J’ai réussi après quelques essais !

Est il ensuite possible d’envoyer un mail à ces personnes ?
Un utilisateur lambda peut uniquement voir le nom et l’adresse de ces medecins. Leur email est accessible uniquement dans le code source de la page. Est ce que l’utiliser pour envoyer 1-2 mails / an est légal ?

1 « J'aime »

Hello,

Où est-ce que tu récupères ce json exactement dans le view source ?

Merci

Dans la balise script à la fin :


Tu veux que je te MP directement l’Excel avec les données ? :wink:

bg @Morph
:grinning:

Merci pour ta réponse,

Non en soi ces données m’importent peu mais c’est surtout pour la méthode !

Dernière question je suis vraiment débutant dès qu’il s’agit de ligne de code, en commençant à copier à partir de l’endroit où tu m’as montré jusqu’à la fin ( avant la balise script ) je n’obtiens rien de spécial, comment savoir jusqu’où copier ? Merci encore

Pour la méthode, il faut quand même des bases techniques.
Regarde ce qu’est un JSON, il est délimité par { et }
Tu peux le visualiser avec des outils en ligne comme celui-ci.
Dedans, comme je le disais plus haut, il y a un tableau « doctors » avec toutes les données.

2 « J'aime »

Merci Morph,
Entre temps j’ai trouvé :slight_smile:

Merci encore pour votre aide.
J’ai réussi à faire l’extraction et au passage appris 2-3 trucs.

Je monte la difficulté avec cette page : Store locator

Ici la liste des points de vente est dynamique et je n’arrive pas à trouver la base de donnée.
J’arrive bien à extraire la data des magasins qui s’affichent sur la page mais le nombre total est bien plus grand que celui affiché (700).

Comment vous y prendriez vous ? Besoin de connaissances techniques pour cela ?

Merci

Edit : je precise que quand j’arrive à extraire la data des magasins affichés à l’extrait c’est via du plugin de scrapping installé sur chrome. Rien d’incroyable ^^

Il faut faire varier les paramètres center_longitude et center_latitude dans la requête de base pour parcourir la planète et récupérer les points par batch de 700.

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.