Importxml + cookie

Hello à tous,

Je cherche une solution pour scraper avec les fonctions importxml, importhtml etc… de spreadsheet, mais avec la possibilité d’éditer le header en y ajoutant mon propre cookie.

@cebri, tu as peut-être la solution avec un google App Script ? :smiley:

2 « J'aime »

Hello, un debut de piste peut-etre ici et .

2 « J'aime »

+1 pour la méthode UrlFetchApp.fetch(url, params), en spécifiant la propriété cookies dans le advanced parameter ‹ headers › .

Seul bémol, manque tout de même quelques fonctions XPath qui seraient bien utiles pour parser le HTML et extraire la data correctement.

Des débuts de solutions, à creuser…:

L’idéal ça serait d’avoir une lib XPath complète, qui fonctionne avec les doc HTML de Google App-Script. Reste à la développer :slight_smile:

1 « J'aime »

Hello, les fonctions XPath sont ici

Hello Lorent, comment tu les utilises? J’essaye de comprendre, mais que viennent faire des fonctions Microsoft .NET dans cette histoire?

Si il s’agit d’une doc de la référence standard XML, alors on ne peut pas utiliser ces méthodes, qui sont uniquement exploitables dans un contexte DOM, afin d’évaluer des expressions XPath. Google-app script en l’état ne permet pas de le faire…

C’est pour l’apprentissage. Un tuto ici.

1 « J'aime »

L’apprentissage du XPath …? Merci, je ne connaissais pas du tout :joy:

Plus sérieusement, pour en revenir au vrai sujet, il n’y a pas de fonctionnalités de requêtage par XPath aujourd’hui qui aille de paire avec la méthode UrlFetchApp.fetch, et c’est là tout le problème.

D’autre part, IMPORTXML avec XPath c’est souvent très foireux. Donnes lui de belles expressions de type //p[contains(@class, ‹ phone ›)]/following-sibling::span[not(preceding-sibling::*[1][name()=‹ br ›])], il sera incapable de l’interpréter correctement…

1 « J'aime »

Hello la team
gsheet n’est pas vraiment efficace sur ce genre de requetes. Je pense que tu gagnerais tu temps a créer ca directement avec apify, phantombuster, un script maison ou simplement postman…Tu peux essayer avec un google script, mais pour avoir tester dans le passé, ca va planter / etre lent / etre bloqué par google si tu fais du volume

sorry :’(

2 « J'aime »

Oui, pas faux. Merci :+1:

avant J’utilisais seotoolsforexcel pour ça, mais uniquement sur windows :grimacing: