Tuto : Scrapper un catalogue produit sur un site e-commerce

Salut la communauté !

J’ai écrit un tuto sur medium qui explique comment scrapper un site e-commerce pour récupérer un catalogue, sans connaissance technique. J’utilise l’outil Webscrapper :slight_smile: . J’ai pensé que ça pourrait intéresser pas mal de monde ici !!

Voici le lien du tuto : https://medium.com/@Tail.ai/growth-hacking-comment-récupérer-scrapper-un-catalogue-produit-sur-un-site-e-commerce-855135390f88

J’ai pas mal utilisé l’outil donc si vous avez besoin d’aide n’hésitez pas :wink:

A+
Yanis

5 Likes

Tooop, super tuto ! Merci pour ce partage avec la communauté :slight_smile:

1 Like

Hello,
merci pour le partage TOP, j’ai testé Dexi.io dans le même type, ça fonctionnait bien & on une offre 7 jours gratuit :slight_smile:
Webscrapper à l’air top, à tester c’est freemium ?

Bye

Hello @asoll

Yes c’est freemium. Ils ont des features payantes pour faire du scrapping automatique et scheduled.
Je ne connaissais pas Dexi.io je vais regarder thanks :slight_smile:

A+

1 Like

Merci @YanisTail pour cet excellent article.

J’ai tenté d’appliquer ta méthode pour récupérer les prix pratiqués par un hôtel. Je récupère un fichier vide.

Exemple :
Scrap des données de l’hotel l’Amiral à Nantes : https://www.google.fr/search?rlz=1C1CHBF_frFR808FR808&biw=1920&bih=937&ei=RS6eXIWwB4LRxgPb04nQCQ&q=hotel+amiral+nantes&oq=hotel+amiral+nantes&gs_l=psy-ab.3..0l4j0i22i30l5.5016.6741..6806...0.0..0.56.675.13…0…1…gws-wiz…0i71j0i131j0i10j0i22i10i30.rbOG386ad6k#trex=m_t:lcl_akp,rc_f:nav,rc_ludocids:1644838555693421869,rc_q:H%25C3%25B4tel%2520Amiral,ru_q:H%25C3%25B4tel%2520Amiral

Il faut se mettre en mode mobile pour voir apparaître les prix via l’extension UA Spoofer

Je récupère un fichier vide une fois WebScrapper paramétrée. Cela est-il du à une protection de Google ?

Hello @christohpe !

J’ai tenté moi aussi de récupérer les données de prix sur ton url. Malheureusement, je n’y suis pas arrivé :frowning:. On dirait que le roi des scrappeurs est difficile à scrapper ^^.
Essaye sur un autre comparateur de prix d’hôtels, tu auras peut-être plus de chance ! A dispo pour t’aider :).

A+
Yanis

Dommage… :sleepy: @scrapping_expert une idée ?

Je n’ai pas assez d’infos pour vous aider.
Les gars, pouvez vous me dire plus précisément à quelle étape vous bloquez, et donner l’export JSON de votre sitemap Webscraper?

Hello @ScrapingExpert !

Voici mon sitemap : {"_id":“amiral”,“startUrl”:[“https://www.google.fr/search?rlz=1C1CHBF_frFR808FR808&biw=1920&bih=937&ei=RS6eXIWwB4LRxgPb04nQCQ&q=hotel+amiral+nantes&oq=hotel+amiral+nantes&gs_l=psy-ab.3..0l4j0i22i30l5.5016.6741..6806...0.0..0.56.675.13…0…1…gws-wiz…0i71j0i131j0i10j0i22i10i30.rbOG386ad6k#lkt=LocalPoiHotelRates&trex=m_t:lcl_akp,rc_f:nav,rc_ludocids:1644838555693421869,rc_q:H%C3%B4tel%20Amiral,ru_q:H%C3%B4tel%20Amiral"],“selectors”:[{“id”:“click”,“type”:“SelectorPopupLink”,“parentSelectors”:["_root"],“selector”:“div.qceoWc”,“multiple”:false,“delay”:0},{“id”:“hotel”,“type”:“SelectorText”,“parentSelectors”:[“click”],“selector”:“div.I74ip”,“multiple”:true,“regex”:"",“delay”:0},{“id”:“price”,“type”:“SelectorText”,“parentSelectors”:[“click”],“selector”:"div.DkrUje:nth-of-type(n+2) div.TfzBfc”,“multiple”:true,“regex”:"",“delay”:0}]}

j’ai essayé de scrapper les hôtels et les prix sur cette pop-in :

Je ne sais pas si cela correspond à ce que veut faire @christohpe car il avait l’air de chercher plutôt les évolutions de prix dans le temps.
Mon scrap se base sur un un selectorpopuplink puis sur du scrap de type text. Malheureusement, je n’arrive pas à en tirer grand chose.

Webscraper lorsque tu le lances, ne reprend pas les paramètres par défaut de ton navigateur, en gros pas d’extensions activées, et du coup encore moins de User Agent spoofé. Pas moyen de se faire passer pour une app mobile avec je pense… Est ce le cas?

En tout cas pour ma part, je gérerais ce type de cas via du headless browser.

2 Likes

Oui, je te confirme que Webscrapper ne reprend pas les paramètres du navigateur. Je ne connaissais pas le headless browser. Est-ce que tu as des ressources à me conseiller sur ce sujet @scrapping_expert ?

J’avais rencontré des problèmes en essayant de scrapper des annonces sur Seloger. Mon scrap fonctionnait bien. En revanche, je n’arrivais pas à récupérer tous les résultats (une limite devait sans doute être atteinte).

Quelques ressources de type tutoriaux pour Chrome Headless (nodejs + Puppeteer):

2 Likes

Merci pour le tuto, par contre on est d’accord que cela ne fonctionne que pour les données affichées par le navigateur ? je ne peux pas aller chercher des balises html non affichées ?

Non, tu peux récupérer le contenu de n’importe quelle balise HTML qu’elle soit visible à l’écran ou pas :slight_smile:

Ah oui webscraper propose le type “html”, mais je n’arrive pas à comprendre comment lui indiquer l’élément html que je souhaite, et impossible de trouver d’autres tutos en français sur cet outil…

J’ai un input qui est “hidden” à récupérer, si quelqu’un a un bon lien pour comprendre comment faire ?

Je crois que je me suis trompé en postant le tuto Chrome Headless en date du 03 Avril dans ce sujet, j’aurais dû le mettre ailleurs… Sorry car ça prête à confusion !

Sinon @EwenK pour en revenir à ta question, pour indiquer à l’outil quel élément HTML tu veux cibler, il faut utiliser les sélecteurs (CSS ou XPath).

Dans le cas de Webscraper, il s’agit des sélecteurs CSS. Et pour ce qui est de cibler un input de type “hidden”, le sélecteur CSS correspondant est: input[type=hidden]

Si tu veux récupérer des données qui sont présentes dans des attributs des balises HTML (en l’occurrence des données “non affichées par le navigateur”), il faut spécifier à Webscraper le type de l’élément que tu cibles, c’est à dire “Element attribute”, puis lui indiquer le nom de l’attribut ciblé:

2 Likes

En effet mon premier post concernait le Tuto initial de Webscraper et non pas celui de Chrome Headless, mais j’irai le voir dans un second temps ceci dit.

Merci pour les explications, je vais creuser cela !

1 Like