Problème ImportXML dans Google Sheet

Bonjour a tous,

Suite a ce très bon article sur le scrapping avec google doc (https://www.distilled.net/blog/seo/how-to-build-agile-seo-tools-using-google-docs/), j’ai tente de reproduire le manip a plusieurs reprises, mais sans succès…

J’ai voulu faire le test en prenant un exemple simple, une liste sur wikipedia, et en extraire des titres de categories. En me basant sur le code source, ma formule était la suivante:

=importxml(“http://fr.wikipedia.org/wiki/Wikipédia:Liste_des_listes”,“//h3[@class=’mw-headline-anchor’]”)

Malheureusement la cellule excel me repete "#ERROR!"
Sauriez-vous d’ou vient le problème?

Merci d’avance!

Alex

Salut @alex2,

Je te conseille, la lecture de cet article : http://deux.io/importxml-importhtml-importfeed-tutorial/

Par @cebri, qui je pense, va pouvoir t’aider sur ta problématique.

Bonour @camillebesse,

Merci de l’article, très utile en effet, merci @cebri ! cependant, j’ai tjs le meme pb pour le XML… . Apres une rapide rapide recherche, j’ai cru comprendre que cela venait des nouvelles feuilles google sheet, qui ne prenait pas en compte le JavaScript de certains sites. Il faut apparemment utiliser les anciennes feuille google sheet, et en effet, pour moi du moins, ca marche!

Plus d’infos sur cet article: http://stackoverflow.com/questions/26382920/importxml-google-spreadsheet-xml-content-cannot-be-parsed-error-in-new-googl/26402078#26402078

1 J'aime

Parfait, merci pour l’astuce!

@camillebesse je me posais la question: est ce que les sites remarquent lorsqu’on scrape avec google sheet? ex: si je scrape une base de données salesforce, est ce que le site va recevoir une alerte? (au delà des considerations éthiques, est ce que le site peut “techniquement” le remarquer avec google sheet?)

Salut @alex2 , et merci @camillebesse pour la mention à l’article.

Google a fait qqs changements entre l’ancienne et la nouvelle version de spreadsheet. J’avais remarqué la suppression de la limite des 50 imports par feuille de calcul (vraiment pratique), mais pas l’inconvénient dont tu parles…D’après ce que je comprends, le pbl ne vient pas du js mais du poid de la page (si ce n’est pas déjà fait, je te recommande de lire ce thread). Si tu essaies ce même extract avec une autre page moins longue, tu verras qu’il passe sans problème. 2 options: passer sur l’ancienne version ou utiliser scraper, le plugin chrome.

Concernant ta question sur le fait de se faire remarquer ou non en scrapant: pour scraper, l’outils se connecte au site et télécharge la page (comme n’importe quel browser le ferait), puis analyse l’html reçu. Dans le cas d’un scrape par GDrive, l’IP téléchargeant la page est celle de google, donc tu ne risques rien. Je t’ai fait un doc ici pour t’en assurer. Par contre, de plus en plus de site bloque les IP des scrapers de google…

Good luck :wink:

2 J'aimes

Super, parfait, merci @cebri! pro, propre, nickel!

Vieux thread, mais la question est toujours d’actualité.
IMPORTXML est trop limitée pour un usage sérieux. Quand on l’utilise ça passe ou ça casse suivant le site cible. Une des principales raisons est que la fonction de prend pas en compte Javascript.
Après des années de frustration, j’ai relevé mes manches et j’ai développé IMPORTFROMWEB.
Grosso-modo la même fonction, mais bourrée aux stéroïdes :slight_smile:
Jetez un coup d’oeil ici https://nodatanobusiness.com/

4 J'aimes

@cebri check it out

OMG :star_struck: ! Je teste ca tout de suite :))

merci @Mapi !

N’hésite pas à me donner ton feedback et suggestions :wink: