Problème ImportXML dans Google Sheet

Bonjour a tous,

Suite a ce très bon article sur le scrapping avec google doc (https://www.distilled.net/blog/seo/how-to-build-agile-seo-tools-using-google-docs/), j’ai tente de reproduire le manip a plusieurs reprises, mais sans succès…

J’ai voulu faire le test en prenant un exemple simple, une liste sur wikipedia, et en extraire des titres de categories. En me basant sur le code source, ma formule était la suivante:

=importxml(“http://fr.wikipedia.org/wiki/Wikipédia:Liste_des_listes”,“//h3[@class=’mw-headline-anchor’]”)

Malheureusement la cellule excel me repete « #ERROR! »
Sauriez-vous d’ou vient le problème?

Merci d’avance!

Alex

Salut @alex2,

Je te conseille, la lecture de cet article : ImportXml & ImportHtml: Scraper avec Google Spreadsheet

Par @cebri, qui je pense, va pouvoir t’aider sur ta problématique.

Bonour @Camille,

Merci de l’article, très utile en effet, merci @cebri ! cependant, j’ai tjs le meme pb pour le XML… . Apres une rapide rapide recherche, j’ai cru comprendre que cela venait des nouvelles feuilles google sheet, qui ne prenait pas en compte le JavaScript de certains sites. Il faut apparemment utiliser les anciennes feuille google sheet, et en effet, pour moi du moins, ca marche!

Plus d’infos sur cet article: xpath - importxml google spreadsheet - "xml content cannot be parsed" error in NEW Google Sheets - Stack Overflow

1 « J'aime »

Parfait, merci pour l’astuce!

@Camille je me posais la question: est ce que les sites remarquent lorsqu’on scrape avec google sheet? ex: si je scrape une base de données salesforce, est ce que le site va recevoir une alerte? (au delà des considerations éthiques, est ce que le site peut « techniquement » le remarquer avec google sheet?)

Salut @alex2 , et merci @Camille pour la mention à l’article.

Google a fait qqs changements entre l’ancienne et la nouvelle version de spreadsheet. J’avais remarqué la suppression de la limite des 50 imports par feuille de calcul (vraiment pratique), mais pas l’inconvénient dont tu parles…D’après ce que je comprends, le pbl ne vient pas du js mais du poid de la page (si ce n’est pas déjà fait, je te recommande de lire ce thread). Si tu essaies ce même extract avec une autre page moins longue, tu verras qu’il passe sans problème. 2 options: passer sur l’ancienne version ou utiliser scraper, le plugin chrome.

Concernant ta question sur le fait de se faire remarquer ou non en scrapant: pour scraper, l’outils se connecte au site et télécharge la page (comme n’importe quel browser le ferait), puis analyse l’html reçu. Dans le cas d’un scrape par GDrive, l’IP téléchargeant la page est celle de google, donc tu ne risques rien. Je t’ai fait un doc ici pour t’en assurer. Par contre, de plus en plus de site bloque les IP des scrapers de google…

Good luck :wink:

2 « J'aime »

Super, parfait, merci @cebri! pro, propre, nickel!

Vieux thread, mais la question est toujours d’actualité.
IMPORTXML est trop limitée pour un usage sérieux. Quand on l’utilise ça passe ou ça casse suivant le site cible. Une des principales raisons est que la fonction de prend pas en compte Javascript.
Après des années de frustration, j’ai relevé mes manches et j’ai développé IMPORTFROMWEB.
Grosso-modo la même fonction, mais bourrée aux stéroïdes :slight_smile:
Jetez un coup d’oeil ici https://nodatanobusiness.com/

5 « J'aime »

@cebri check it out

OMG :star_struck: ! Je teste ca tout de suite :))

merci @Mapi !

N’hésite pas à me donner ton feedback et suggestions :wink:

Ca semble top ce module mais quand j’essaie j’ai des erreurs #error! même quand je prend la formule d’exemple que tu indiques sur ton site :
=IMPORTFROMWEB(** « https://www.amazon.com/s/?keywords=iphone » , « //h2//text() » **)

Ca devrait marcher maintenant.
Désolé pour les problèmes de jeunesse! Effectivement la base de users croît et donc à certains moments de la journée, aussi le stress infligé au serveur.

Bref, on bosse pour régler tout ça et faire en sorte que ça ne se pass plus!

1 « J'aime »

Hello @Mapi
Comme @mattt8888 la fonction ne marche pas chez moi…Même en prenant ta formule d’exemple !

Bonjour @Romain11
Étrange, tout semble fonctionner. Réessaie maintenant.
Autrement peux-tu me décrire le message d’erreur?

Je viens de réessayer. Idem.
Message d’erreur : #ERREUR!
= Erreur d’analyse de formule.

Hello ! Est-ce possible de récupérer un flux XML avec une méthode comme ImportXML ou ImportFromWeb sur Google Sheet, si la page du flux est protégée par un login/password (que je possède bien sûr) ?

Désolé pour le délai de ma réponse. C’est étrange que ça ne fonctionne pas dans ton cas
Peux-tu partager la feuille de calcul?

Bonjour Max,
Actuellement aucune des fonctions ne le permet.
Mais je compte bien ajouter la fonctionnalité prochainement