Suite a ce très bon article sur le scrapping avec google doc (Distilled – Now Brainlabs), j’ai tente de reproduire le manip a plusieurs reprises, mais sans succès…
J’ai voulu faire le test en prenant un exemple simple, une liste sur wikipedia, et en extraire des titres de categories. En me basant sur le code source, ma formule était la suivante:
Merci de l’article, très utile en effet, merci @cebri ! cependant, j’ai tjs le meme pb pour le XML… . Apres une rapide rapide recherche, j’ai cru comprendre que cela venait des nouvelles feuilles google sheet, qui ne prenait pas en compte le JavaScript de certains sites. Il faut apparemment utiliser les anciennes feuille google sheet, et en effet, pour moi du moins, ca marche!
@Camille je me posais la question: est ce que les sites remarquent lorsqu’on scrape avec google sheet? ex: si je scrape une base de données salesforce, est ce que le site va recevoir une alerte? (au delà des considerations éthiques, est ce que le site peut « techniquement » le remarquer avec google sheet?)
Salut @alex2 , et merci @cona pour la mention à l’article.
Google a fait qqs changements entre l’ancienne et la nouvelle version de spreadsheet. J’avais remarqué la suppression de la limite des 50 imports par feuille de calcul (vraiment pratique), mais pas l’inconvénient dont tu parles…D’après ce que je comprends, le pbl ne vient pas du js mais du poid de la page (si ce n’est pas déjà fait, je te recommande de lire ce thread). Si tu essaies ce même extract avec une autre page moins longue, tu verras qu’il passe sans problème. 2 options: passer sur l’ancienne version ou utiliser scraper, le plugin chrome.
Concernant ta question sur le fait de se faire remarquer ou non en scrapant: pour scraper, l’outils se connecte au site et télécharge la page (comme n’importe quel browser le ferait), puis analyse l’html reçu. Dans le cas d’un scrape par GDrive, l’IP téléchargeant la page est celle de google, donc tu ne risques rien. Je t’ai fait un doc ici pour t’en assurer. Par contre, de plus en plus de site bloque les IP des scrapers de google…
Vieux thread, mais la question est toujours d’actualité.
IMPORTXML est trop limitée pour un usage sérieux. Quand on l’utilise ça passe ou ça casse suivant le site cible. Une des principales raisons est que la fonction de prend pas en compte Javascript.
Après des années de frustration, j’ai relevé mes manches et j’ai développé IMPORTFROMWEB.
Grosso-modo la même fonction, mais bourrée aux stéroïdes
Jetez un coup d’oeil ici https://nodatanobusiness.com/
Ca semble top ce module mais quand j’essaie j’ai des erreurs #error! même quand je prend la formule d’exemple que tu indiques sur ton site :
=IMPORTFROMWEB(** « https://www.amazon.com/s/?keywords=iphone » , « //h2//text() » **)
Ca devrait marcher maintenant.
Désolé pour les problèmes de jeunesse! Effectivement la base de users croît et donc à certains moments de la journée, aussi le stress infligé au serveur.
Bref, on bosse pour régler tout ça et faire en sorte que ça ne se pass plus!
Hello ! Est-ce possible de récupérer un flux XML avec une méthode comme ImportXML ou ImportFromWeb sur Google Sheet, si la page du flux est protégée par un login/password (que je possède bien sûr) ?