Scraping prix grande distribution (Auchan, Carrefour..) ?

Bonjour a tous,

Voila mon sujet : je cree un « RSP - retail sales price », qui est en somme un gros fichier excel avec les prix pratiques dans toute la grande distri pour une categorie de produits donnees.

En pratique, je me rends sur les magasins en ligne (carrefour / auchan … ) et je fais un copier -coller des infos sur excel…je vous laisse imaginer la galere…

Ma question est : connaitriez-vous des methodes pour aller plus vite? (pas de budget et je ne sais pas coder :-1: ), je precise que j’ai tente l’import de données directement sur excel mais ca plante).

Merci par avance

Si ni budget, ni code, alors pour ce genre de chose voir fonction importfromweb sur spreadsheet ou l’extension webscraper pour chrome, mais dans tout les cas, il n’y a pas de magie, ca te demandera de l’apprentissage :wink:

cc @ksahin

1 « J'aime »

Un grand Merci de te reponse Camille !

1 « J'aime »

En ce qui concerne l’automatisation de la navigation + extraction de données depuis les sites de la grande distribution + leurs drives, il n’existe pas de méthodes faciles ou toutes faites, en tout cas rien de gratuit.

WebScraper sera inefficace partout où il est nécessaire de cliquer sur des boutons ou liens qui ne sont pas des balises « a » avec un attribut « href » en propre. En gros, incapable de cliquer correctement sur des boutons avec un comportement piloté par JavaScript et/ou déclenchant des appels XHR.

Par contre il existe déjà bon nombre de prestataires qui vendent ces données aux marques de la grande distribution dans une démarche de veille tarifaire concurrentielle. Sous entendu, si tu cherches à proposer ces données à la grande distrib, ils ont déjà des solutions en place…

Sinon, à ce niveau là, il n’y a pas de magie, il faut savoir bien coder et savoir comment contourner les mécanismes de blocage, car des marques comme E.Leclerc ou Carrefour ont implémentés Data-dome sur leurs sites. Ca augmente considérablement la difficulté :confused:

1 « J'aime »

Merci pour cette reponse claire, simple et informative , on sent bien l’expert :wink:
Bien note, je vais me muscler les doigts pour des sessions CTRL C / CTRL V

Ou commencer à te former sur du code? Pour certains sites ça pourra t’être bien utile :slight_smile:

Et pour les sites ne bloquant pas ou étant compatible avec WebScraper… tu peux tester ce dernier !

1 « J'aime »

Et en solution payante , que proposerais tu ?

Tu cibles une ou des régions en particulier, ou toute la France?
Tu cibles une ou plusieurs marques de grande distribution? Magasins physique et/ou drive?
Tu cibles quelle catégories de produits? Il te faut toutes les données avec ou sans EAN ?

Merci de ta reactivite !

les cibles : La France + L’Espagne + Le Portugal.
Toute la grandi distri « physique » (Auchan , Carrefour, Continente etc…). Je travaille dans le cafe,c’est la seule categorie qui m’interesse.

Toutes les marques que cela soit les MDD / marque des chaines et les marques nationales (ex: l’Or , nescafe), tout produit confondu (soluble, grain, moulu, capsules, etc…)

Ce que je souhaite faire, c’est de prendre sur leurs magasins en ligne respectifs nom du produit et marque ou societe, prix , les infos basiques me suffisent (meme pas besoin des EANs).

Sur le papier, ca me paraissait plutot simple mais apres quleques tests, en fait non :slight_smile: soit je suis bloque a l’extraction , soit les donnees extraites sont tellement brouillones que ca n’a plus d’interet.

Mmmh ça parait assez compliqué tout ça !!

Honnêtement je pense que la seule solution adaptée à ce stade ça serait des scripts/robots personnalisés, je ne vois pas vraiment d’autre alternative, mais peut être que je me trompe !

Et encore une fois, techniquement parlant, ça sera également très compliqué à mettre en oeuvre.

1 « J'aime »

Des pros font ça depuis des années notamment une boîte située à CHolet qui a été rachetée il y a quelques années par un monstre du marketing. En général ils sous-traitaient l’affaire à des spécialistes du scrapping situés en Europe de l’Est et au passage ils faisaient aussi ça en scannant les catalogues promo. la Grande Distrib le sait et change la structure de ses sites assez souvent, quitte à mettre les prix sur les images et non en données (ce qui oblige à utiliser des outils de reconnaissance de texte sur image comme ceux que propose Google).
Concrètement, chaque chaine connait en permanence les prix des autres, dans chaque endroit et ils « s’entendent » ou « s’attaquent » ainsi.
Tout ça pour dire que c’est TRES compliqué techniquement, sans compter donc que les promos sont surtout sur les catalogues « papier » temporaires…
LA solution est de ne pas scrapper mais d’avoir un réseau de correspondants qui relève les prix (soit en allant au magasin soit en transmettant les prix des catalogues qu’ils reçoivent par leur boîte aux lettres). Les retraités sont idéaux pour ça et acceptent d’être payés en bons d’achat ou cartes cadeau. 2 ou 3 sociétés font comme ça et ont d’aussi bons résultats: le retraité a des enveloppes timbrées où il met les catalogues découpés ou alors il envoie un mail, pour 20-50 euros par mois maxi en bons d’achat ou cartes cadeaux.

3 « J'aime »

Merci de ton temps, de tes reponses et des infos en tout cas !

Top ces infos ! je suis justement en Europe de l’est, je vais jeter un oeil par ici et je vous tiendrai informe si je trouve une societe qui fait ca .
Un grand merci pour ta contribution a ma problematique.

Pour info, la boîte en Europe de l’Est appartient à un français qui est en Pologne ou par là-bas depuis les années 90

Scrapper les drives et les catalogues promo c’est notre métier depuis 18 ans !
Les analyses catégorielles sur le café (et sur n’importe quelle autre catégorie PGC) on sait faire, les marques que tu as cités sont clientes chez nous.

Je confirme que c’est extrêmement complexe techniquement, ne serait-ce qu’à cause de la présence de DataDome sur la majorité des sites.

Selon le besoin on peut peut-être aider, car en ce moment on fait du gratuit pour les industriels => https://www.data-solutions.com/impact-covid-19

N’hésites pas à revenir vers moi si besoin, mais je te déconseilles d’y aller seul, tu vas perdre énormément de temps…

3 « J'aime »

Bonjour à tous, hello @Tanguyb !

Je suis Kévin le fondateur et gérant d’une société qui mijote des petits pots pour bébé.

Aujourd’hui nous travaillons avec 150 Drives (Leclerc uniquement) et bientôt 400. Ce qui nécessite beaucoup de temps pour faire son reporting (contrôler les prix, si les produits sont dispo ou pas)

Voici un exemple d’URL pour nos produits : https://fd3-courses.leclercdrive.fr/magasin-066201-Outreau/recherche.aspx?TexteRecherche=potpotam

Après avoir essayer différentes méthodes dont celles proposées par @Camille (importfromweb, webscraper, code pyhton avec sélénium) il est difficile d’arriver a quelques choses de satisfaisant… Le site repère très rapidement ce genre d’outil ou de technique.Attention, je ne suis pas non plus un expert sur le sujet. Il faut également penser au problème de manière globale pour toutes tes références produits sur l’ensemble des drives.

Petit clin d’œil, ils ont glissé des offres d’emplois dans le code du site (cf photo ci-dessous)

Et là nous parlons uniquement de nos 20 références sur un seul « type » de Drive à savoir Leclerc. J’imagine déjà les complications pour ajouter d’autres enseignes comme Intermarché, Carrefour, etc. Tout en gardant en tête que Intermaché fait du « picking » dans le magasin pour préparer les commandes mais que Leclerc a son propre stock dédié.

Je pense que le mieux est de rapprocher de personnes compétentes qui peuvent te faire une solution maison adaptée a ton besoin ou effectivement d’acheter ce genre d’info. De mon côté, nous allons mettre en place avec un ami dev une solution maison.

En espérant t’avoir apporté des éléments de réponse :smiley:

Bonne journée à vous et que vos business growth’ssisse bien !

4 « J'aime »

Bonjour Lunel,
Merci de ta reponse et de ton temps,
Sympa l’offre dans le code source de la page, c’est super drole !
J ai tente pleins de solutions, force est de constater que la grande distri est blinde. je fais des copier - coller a mes heures perdues mais si ton Dev fait quelques choses de sympa, je veux bien etre son prochain client.
Pourras tu nous tenir informes et nous mettre sur le forum quelques imprim ecrans , histoire de voir le resultat ?
Tanguy

Yes je partagerai l’avancé du projet ici ! :smiley:

1 « J'aime »

Super ce que vous proposez !

Par ailleurs, en ce qui concerne les blocages liés à Datadome, vous savez comment faire pour passer outre, afin de récupérer de la donnée issue des sites des principaux Drives?

Oui on a fini par comprendre le fonctionnement, mais je sais qu’ils trainent par ici, donc je n’en dirait pas trop :wink:

4 « J'aime »