Scraping Cdiscount avec scrapy

lyemow · Novembre 22, 2020, 6:30

Bonjour à tous,

J’essaye depuis quelques jours de scrapper un résultat de recherche sur cdiscount mais je n’y arrive pas.
J’utilise Scrapy et Splash car cdiscount nécéssite du javascript pour fonctionner.

(J’ai bien essayé de me passer de splash en cherchant les requetes xhr qui chargent les données au niveau de la console dev + network, mais on dirait que les réponses du serveur sont crypté et surement décrypté par du JS coté client. Je n’arrive pas à le reverse engineering ).

J’arrive donc à scraper la premières page mais je n’arrive pas a simuler un clic sur le bouton pour passer à la page suivante.
Scrapy me dit que je tente de scrapper du contenu dupliqué et au final je me retrouve avec un json contenant le meme résultat deux fois.

J’utilise le script suivant pour simuler le clic sur le bouton:

script = « »« function main(splash)
assert(splash:go(splash.args.url))
splash:wait(1)
button = splash:select(‹ .jsNxtPage ›)
splash:set_viewport_full()
splash:wait(1)
button:mouse_click()
splash:wait(1)
return {url = splash:url(),
html = splash:html()}
end »« »

Et la page que je souhaite scraper est : Captcha
Plus les prochaines pages.

J’apprécierai beaucoup un coup de main

raz101 · Novembre 22, 2020, 11:10

Salut,

Tu dois changer la config de scrapy qui permet de détecter les pages doublons
De base ça ne prend pas en compte les params URL (après le ? donc)

A part ça, tu peux scrap Cdiscount avec des requêtes POST sous la forme
https://www.cdiscount.com/ProductListUC.mvc/UpdateJsonPage?page=

Cdiscount ne nécessite pas de JS jusqu’à la pagination 9, pour celles d’après, il faut le faire en requête POST, ou en headless

lyemow · Novembre 23, 2020, 12:19

Okay merci beaucoup pour ces pistes !!
Je vais tester ça et je t’en dirais des nouvelles ^^

lyemow · Novembre 23, 2020, 4:53

Rebonjour !

J’ai pu essayé la piste avec requête POST, ça fonctionne parfaitement et je peux récupérer quasiment tout ce que je souhaite obtenir excepté les bandeaux que l’on peut trouver au dessus d’un produit.
(Exemple : Screenshot by Lightshot)

En explorant un peu plus j’ai pu apercevoir ceci dans le code source : Screenshot by Lightshot
On peut y voir un script contenant TOUTES les informations que je souhaite exploiter.
As-tu une idée de comment les récupérer sans avoir besoin de passer en headless?

Je n’ai cependant pas compris ce que tu voulais dire au niveau de la pagination, peu importe la page sur laquelle je me situe si je n’active pas le js, je ne reçois pas de résultats.

lyemow · Novembre 27, 2020, 10:21

Okay my bad j’ai trouvé et c’est biendisponible depuis l’url que tu m’as passé, désolé et merci encore

Cyriou · Décembre 5, 2020, 8:16

Bonjour,

comment obtenez-vous l’url pour la requête POST depuis un url standard ?

Merci d’avance

Scrapin · Juin 4, 2023, 10:34

Bonjour,
peux-tu partager ton code utiliser pour la methode POST s’il te plait

SashaLobstr · Août 11, 2023, 6:04

C’était une galère, mais voilà le code complet version juillet 2023

Barbecue d’été à l’honneur

Scrapin · Août 14, 2023, 1:02

Entre temps j’ai développé une façons d’être le fair de mon côté je jetterais un coup d’œil à la vôtre
En tout cas un grand merci pour votre réponse