Problème ImportXML dans Google Sheet

alex2 · Mars 15, 2015, 2:27

Bonjour a tous,

Suite a ce très bon article sur le scrapping avec google doc (Distilled – Now Brainlabs), j’ai tente de reproduire le manip a plusieurs reprises, mais sans succès…

J’ai voulu faire le test en prenant un exemple simple, une liste sur wikipedia, et en extraire des titres de categories. En me basant sur le code source, ma formule était la suivante:

=importxml(“http://fr.wikipedia.org/wiki/Wikipédia:Liste_des_listes”,“//h3[@class=’mw-headline-anchor’]”)

Malheureusement la cellule excel me repete « #ERROR! »
Sauriez-vous d’ou vient le problème?

Merci d’avance!

Alex

camille · Mars 15, 2015, 11:11

Salut @alex2,

Je te conseille, la lecture de cet article : ImportXml & ImportHtml: Scraper avec Google Spreadsheet

Par @cebri, qui je pense, va pouvoir t’aider sur ta problématique.

alex2 · Mars 15, 2015, 1:34

Bonour @camille,

Merci de l’article, très utile en effet, merci @cebri ! cependant, j’ai tjs le meme pb pour le XML… . Apres une rapide rapide recherche, j’ai cru comprendre que cela venait des nouvelles feuilles google sheet, qui ne prenait pas en compte le JavaScript de certains sites. Il faut apparemment utiliser les anciennes feuille google sheet, et en effet, pour moi du moins, ca marche!

Plus d’infos sur cet article: xpath - importxml google spreadsheet - "xml content cannot be parsed" error in NEW Google Sheets - Stack Overflow

camille · Mars 15, 2015, 2:14

Parfait, merci pour l’astuce!

alex2 · Mars 15, 2015, 2:42

@Camille je me posais la question: est ce que les sites remarquent lorsqu’on scrape avec google sheet? ex: si je scrape une base de données salesforce, est ce que le site va recevoir une alerte? (au delà des considerations éthiques, est ce que le site peut « techniquement » le remarquer avec google sheet?)

cebri · Mars 15, 2015, 8:46

Salut @alex2 , et merci @camille pour la mention à l’article.

Google a fait qqs changements entre l’ancienne et la nouvelle version de spreadsheet. J’avais remarqué la suppression de la limite des 50 imports par feuille de calcul (vraiment pratique), mais pas l’inconvénient dont tu parles…D’après ce que je comprends, le pbl ne vient pas du js mais du poid de la page (si ce n’est pas déjà fait, je te recommande de lire ce thread). Si tu essaies ce même extract avec une autre page moins longue, tu verras qu’il passe sans problème. 2 options: passer sur l’ancienne version ou utiliser scraper, le plugin chrome.

Concernant ta question sur le fait de se faire remarquer ou non en scrapant: pour scraper, l’outils se connecte au site et télécharge la page (comme n’importe quel browser le ferait), puis analyse l’html reçu. Dans le cas d’un scrape par GDrive, l’IP téléchargeant la page est celle de google, donc tu ne risques rien. Je t’ai fait un doc ici pour t’en assurer. Par contre, de plus en plus de site bloque les IP des scrapers de google…

Good luck

alex2 · Mars 16, 2015, 9:01

Super, parfait, merci @cebri! pro, propre, nickel!

Mapi · Juin 1, 2019, 11:28

Vieux thread, mais la question est toujours d’actualité.
IMPORTXML est trop limitée pour un usage sérieux. Quand on l’utilise ça passe ou ça casse suivant le site cible. Une des principales raisons est que la fonction de prend pas en compte Javascript.
Après des années de frustration, j’ai relevé mes manches et j’ai développé IMPORTFROMWEB.
Grosso-modo la même fonction, mais bourrée aux stéroïdes
Jetez un coup d’oeil ici https://nodatanobusiness.com/

camille · Juin 2, 2019, 9:00

@cebri check it out

cebri · Juin 2, 2019, 10:38

OMG ! Je teste ca tout de suite :))

merci @Mapi !

Mapi · Juin 3, 2019, 7:59

N’hésite pas à me donner ton feedback et suggestions

mattt8888 · Juillet 3, 2019, 10:56

Ca semble top ce module mais quand j’essaie j’ai des erreurs #error! même quand je prend la formule d’exemple que tu indiques sur ton site :
=IMPORTFROMWEB(** « https://www.amazon.com/s/?keywords=iphone » , « //h2//text() » **)

Mapi · Juillet 3, 2019, 2:14

Ca devrait marcher maintenant.
Désolé pour les problèmes de jeunesse! Effectivement la base de users croît et donc à certains moments de la journée, aussi le stress infligé au serveur.

Bref, on bosse pour régler tout ça et faire en sorte que ça ne se pass plus!

Romain11 · Juillet 15, 2019, 4:19

Hello @Mapi
Comme @mattt8888 la fonction ne marche pas chez moi…Même en prenant ta formule d’exemple !

Mapi · Juillet 15, 2019, 7:49

Bonjour @Romain11
Étrange, tout semble fonctionner. Réessaie maintenant.
Autrement peux-tu me décrire le message d’erreur?

Romain11 · Juillet 16, 2019, 2:24

Je viens de réessayer. Idem.
Message d’erreur : #ERREUR!
= Erreur d’analyse de formule.

Max_Watering · Juillet 17, 2019, 8:56

Hello ! Est-ce possible de récupérer un flux XML avec une méthode comme ImportXML ou ImportFromWeb sur Google Sheet, si la page du flux est protégée par un login/password (que je possède bien sûr) ?

Mapi · Juillet 18, 2019, 8:52

Désolé pour le délai de ma réponse. C’est étrange que ça ne fonctionne pas dans ton cas
Peux-tu partager la feuille de calcul?

Mapi · Juillet 18, 2019, 8:54

Bonjour Max,
Actuellement aucune des fonctions ne le permet.
Mais je compte bien ajouter la fonctionnalité prochainement