Erreur #N/A avec IMPORTXML sous Googlesheet

Bonjour,

J’essaie en vain de récupérer le résultat d’une recherche sur cette page : http://www.label-ecojardin.fr/sites-labellises?title=&field_site_adresse_locality=paris

J’aimerai déjà pouvoir récupérer le nom de chaque item avant d’aller plus loin (scraper par exemple la page dédiée à chaque item de recherche).
Pour le nomme l’item j’ai essayé différentes solutions mais j’obtiens toujours un #N/A comme par exemple =IMPORTXML(« http://www.label-ecojardin.fr/sites-labellises?title=&field_site_adresse_locality=paris";"//td[@class=‹ views-field views-field-body ›]//br »)

Est ce que vous auriez une solution?

Merci d’avance
Bien à vous

Hello,

Deux choses:

  • IMPORTXML n’est pas fiable. La preuve, si tu fais rien qu’une requête avec XPath = « //a » on obtient un #N/A hors ça n’a pas de raison d’être puisque XPath valide

  • Le XPath devrait normalement être « //td[@class=‹ views-field views-field-body ›]/a » car //br ne représente rien, sinon des nodes de type retour à la ligne (sans contenu)

Hello ScrpingExpert,

Merci pour ton retour. J’ai également essayé le XPath « //td[@class=‘views-field views-field-body’]/a » mais toujours l’erreur #N/A. IMPORTXML ne semble effectivement pas fiable et ne fonctionne pas avec tous les sites.

J’ai essayé du coup de scraper cette page en installant l’extension Chrome WebScraper.io
Cela fonctionne bien mieux que IMPORTXML pour afficher les noms de chaque item. En revanche je bloque sur l’utilisation de Element Click Selector pour pouvoir scraper toutes les pages de résultats.

As tu déjà utilisé WebScraper et si oui sais-tu quel élément doit on définir dans le Click Selector? J’ai pour le moment essayé pas mal de choses de la forme ul.pager a par exemple.

Encore merci pour ton retour.

Bonne après-midi

Il faudrait que je regarde ça dans le détail, mais par manque de temps je ne saurais que te suggérer de regarder leurs tuto, et en particulier celui sur « Element Click Selector »: