Scraping annuaire des golfs de France

Thegeoff · Mai 10, 2020, 5:39

Bonjour,

J’essaye de scraper les adresses email de ce site web : Jouer au golf en France - Tous les golfs de France - Hôtel golf - Lecoingolf

Je suis débutant dans le scraping, et j’avais pour idée de le faire en 3 temps :

1 => récupérer tous les noms des golfs du site : par exemple : Golf du Val de Sorne
2 => concatener l’url Parcours de golf - Annuaire golf - France, Portugal, Espagne - Lecoingolf et les noms des golfs pour avoir toutes les url du site ; par exemple : Golf du Val de Sorne - Golf 18 trous Domaine Hôtel Resort - Lecoingolf
3 =>aller chercher le xpath pour utiliser la fonction importxml(url; xpath) de google sheet.

Mais voila, ça ne marche pas !!

Merci par avance à ceux qui vont m’aider

ClementAubry · Mai 10, 2020, 5:42

Bonjour, qu’est-ce qui ne marche pas, où est-ce que ça coince ?

Car dans l’idée c’est bien, il faut récupérer tous les urls du type Golf du Val de Sorne - Golf 18 trous Domaine Hôtel Resort - Lecoingolf. Et tu n’es pas obligé de passer par le nom, tu peux directement récupérer les liens c’est plus simple.

Pour ton usage, je pense que importxml est bien (je ne l’ai jamais utilisé), mais tu pourrais réaliser toutes tes étapes de scraping directement avec webscraper.io qui est très bien

Thegeoff · Mai 10, 2020, 5:56

quand je fais
importxml(Golf du Val de Sorne - Golf 18 trous Domaine Hôtel Resort - Lecoingolf; //*[@id=« block_NaPXJOx »]/div[1]/div[2]/ul/li[2]/span/p/a) le résultat est #N/A

Thegeoff · Mai 10, 2020, 10:04

Merci ClmAubry, j’ai réussi avec Webscraper !!

ClementAubry · Mai 11, 2020, 2:28

Super, content de l’apprendre !

Pour le problème avec importxml d’autres membres pourront quand même t’aider dessus, ça reste intéressant de comprendre pourquoi ça bloque.

Bonne chasse !

camille · Mai 11, 2020, 2:40

Essaye plutôt la fonction Impotfromweb : Nouvelle fonction de scraping pour Google Sheets

Mapi · Mai 11, 2020, 4:07

Merci @camille !
@Thegeoff Je n’ai pas trouvé de bloc avec l’id block_NaPXJOx.
Par contre j’ai fait une petite démo pour extraire le numéro de télephone. Tu peux remplacer par l’XPath de ton choix:

Mapi · Mai 11, 2020, 4:20

(Voici le lien pour la lecture - sans copier la feuille:
lecoingolf.fr - Google Spreadsheets)