Erreur #N/A avec IMPORTXML sous Googlesheet

S3ablu3sky · Octobre 31, 2017, 10:07

Bonjour,

J’essaie en vain de récupérer le résultat d’une recherche sur cette page : Sites labellisés | Label-Ecojardin

J’aimerai déjà pouvoir récupérer le nom de chaque item avant d’aller plus loin (scraper par exemple la page dédiée à chaque item de recherche).
Pour le nomme l’item j’ai essayé différentes solutions mais j’obtiens toujours un #N/A comme par exemple =IMPORTXML(« Sites labellisés | Label-Ecojardin[@class=‹ views-field views-field-body ›]//br »)

Est ce que vous auriez une solution?

Merci d’avance
Bien à vous

ScrapingExpert · Octobre 31, 2017, 1:52

Hello,

Deux choses:

IMPORTXML n’est pas fiable. La preuve, si tu fais rien qu’une requête avec XPath = « //a » on obtient un #N/A hors ça n’a pas de raison d’être puisque XPath valide
Le XPath devrait normalement être « //td[@class=‹ views-field views-field-body ›]/a » car //br ne représente rien, sinon des nodes de type retour à la ligne (sans contenu)

S3ablu3sky · Octobre 31, 2017, 2:20

Hello ScrpingExpert,

Merci pour ton retour. J’ai également essayé le XPath « //td[@class=‘views-field views-field-body’]/a » mais toujours l’erreur #N/A. IMPORTXML ne semble effectivement pas fiable et ne fonctionne pas avec tous les sites.

J’ai essayé du coup de scraper cette page en installant l’extension Chrome WebScraper.io
Cela fonctionne bien mieux que IMPORTXML pour afficher les noms de chaque item. En revanche je bloque sur l’utilisation de Element Click Selector pour pouvoir scraper toutes les pages de résultats.

As tu déjà utilisé WebScraper et si oui sais-tu quel élément doit on définir dans le Click Selector? J’ai pour le moment essayé pas mal de choses de la forme ul.pager a par exemple.

Encore merci pour ton retour.

Bonne après-midi

ScrapingExpert · Octobre 31, 2017, 2:33

Il faudrait que je regarde ça dans le détail, mais par manque de temps je ne saurais que te suggérer de regarder leurs tuto, et en particulier celui sur « Element Click Selector »: