Extraire information depuis une map

Hello tout le monde,

J’aurais besoin de vous pour savoir comment extraire des email incorporés dans une map. Pour que cela soit plus parlant pour vous donner une idée comment pourrais-je faire pour extraire les contacts de cette page https://randoportail.fr/annuaire ?

Merci pour votre aide.
Chris

Hello,

Petit coup de pouce, utilises WebScraper.io, montes en compétence sur le tool et tu pourras injecter cette liste d’URLs de départ dans les start URLs:

Tu n’auras plus qu’à configurer WebScraper pour extraire les informations depuis le HTML de chaque page.

1 J'aime

Hello @Chriis22,

Il n’y a pas de solution universelle, c’est toujours du cas par cas.

Dans ce cas précis, j’ai trouver le solution de récupérer les ID des personnes dans le code source "ammObj.id " et après de reconstituer les pages sous cette forme :

https://randoportail.fr/infowindow/annuaire/ID

Puis de récupérer l’email.

Le résultat : https://docs.google.com/spreadsheets/d/17axmKGP6IRaBdnTgLARVoYzkK9saO-w9LjBcU8Jvg4Y/edit?usp=sharing

En même temps, on est rapide aujourd’hui :wink:

1 J'aime

Vous êtes trop forts merci beaucoup.

Vous savez si avec la même méthode je peux récupérer le Nom + prénom associé ?

Merci encore pour votre réactivité et votre aide.

Christophe

1 J'aime

Avec WebScraper, tu pourras récupérer un fichier dans ce style là:

Super,

Je suis sur les premiers tutos là.
Merci encore pour votre aide.

Christophe

Hello à nouveau,

Bon, désolé de vous décevoir (je vous l’avais dit) mais je n’y arrive pas :frowning:

Je n’arrive pas à injecter la liste complète d’URLs. j’ai pourant essayé en faisant un import sitemap et en ajoutant url,url,url… au sein du sitemap mais ça me met toujours que le JSON est invalid. J’ai concaténé, j’ai essayé via excel et via le blocnote mais je fais une erreur que je n’arrive pas à identifier.

Et je n’arrive pas non plus à select les éléments un à un comme tu l’as fait au dessus @ScrapingExpert. ex: dissocier le prenom et le nom en 2 colonnes alors que ça n’est qu’un seul et même élément quand je veux le select.

Please help, la forme que tu as donné au tableau ci-dessus est ce que je souhaite avoir. Mais je m’y prends comme un pied.

{"_id":"randoportail-annuaire","startUrl":["https://randoportail.fr/infowindow/annuaire/42","https://randoportail.fr/infowindow/annuaire/58","https://randoportail.fr/infowindow/annuaire/59","https://randoportail.fr/infowindow/annuaire/60","https://randoportail.fr/infowindow/annuaire/61","https://randoportail.fr/infowindow/annuaire/66","https://randoportail.fr/infowindow/annuaire/77","https://randoportail.fr/infowindow/annuaire/84"],"selectors":[{"id":"fullname","type":"SelectorText","parentSelectors":["_root"],"selector":"h3","multiple":false,"regex":"","delay":0},{"id":"firstname","type":"SelectorText","parentSelectors":["_root"],"selector":"h3","multiple":false,"regex":"^[^a-z][a-z]+(?:[\\s-][^a-z][a-z]+)?","delay":0},{"id":"lastname","type":"SelectorText","parentSelectors":["_root"],"selector":"h3","multiple":false,"regex":"[^a-z]+$","delay":0}]}