Scraping annuaire des golfs de France

Bonjour,

J’essaye de scraper les adresses email de ce site web : https://lecoingolf.fr/jouer-golf/france/

Je suis débutant dans le scraping, et j’avais pour idée de le faire en 3 temps :

Mais voila, ça ne marche pas !!

Merci par avance à ceux qui vont m’aider :wink:

Bonjour, qu’est-ce qui ne marche pas, où est-ce que ça coince ?

Car dans l’idée c’est bien, il faut récupérer tous les urls du type https://lecoingolf.fr/parcours-de-golf/golf-du-val-de-sorne/. Et tu n’es pas obligé de passer par le nom, tu peux directement récupérer les liens c’est plus simple.

Pour ton usage, je pense que importxml est bien (je ne l’ai jamais utilisé), mais tu pourrais réaliser toutes tes étapes de scraping directement avec webscraper.io qui est très bien :slight_smile:

2 J'aimes

quand je fais
importxml(https://lecoingolf.fr/parcours-de-golf/golf-du-val-de-sorne; //*[@id=« block_NaPXJOx »]/div[1]/div[2]/ul/li[2]/span/p/a) le résultat est #N/A

Merci ClmAubry, j’ai réussi avec Webscraper !!

2 J'aimes

Super, content de l’apprendre !

Pour le problème avec importxml d’autres membres pourront quand même t’aider dessus, ça reste intéressant de comprendre pourquoi ça bloque.

Bonne chasse ! :wink:

Essaye plutôt la fonction Impotfromweb : Nouvelle fonction de scraping pour Google Sheets

1 J'aime

Merci @camillebesse !
@Thegeoff Je n’ai pas trouvé de bloc avec l’id block_NaPXJOx.
Par contre j’ai fait une petite démo pour extraire le numéro de télephone. Tu peux remplacer par l’XPath de ton choix:

https://docs.google.com/spreadsheets/d/1Vk0OWK4mTAXxGi512y4gQvTzm50mY_YEjA4vV6OsZ4Y/copy

1 J'aime

(Voici le lien pour la lecture - sans copier la feuille:
https://docs.google.com/spreadsheets/d/1Vk0OWK4mTAXxGi512y4gQvTzm50mY_YEjA4vV6OsZ4Y/edit?usp=sharing)