Comment un site réussit à récupérer les données de 99% des sites marchands ?

august1 · Avril 29, 2021, 7:37

Bonjour,

je vous contacte car je viens de découvrir un service de liste de cadeaux: Milirose. En copiant l’url de n’importe quel objet vendu sur presque n’importe quel site (99% des sites compatibles selon eux), le site récupère l’image, le nom de l’article et un prix. J’ai fait une vidéo de démo.

Selon vous, quelle technique est-utilisée pour avoir une telle « compatibilité » ? Ils ne peuvent pas avoir accès à l’API des tous ces sites. S’ils font du scrapping, comment font-ils pour s’assurer de récupérer les bonnes données, par exemple s’il y a plusieurs montants en euro communiqués ?

Je vous remercie, par avance, de votre aide.

Augustin

Camille · Avril 29, 2021, 8:33

90% de sites e-commerce utilisent : magento, shopify, prestashop, woocomerce
Il suffit de connaitre l’architecture de ces 4 plateformes + celle des très gros e-commerce custom (amazon, ebay etc…) et tu arriveras à quelque chose proche de 100% de match.

raz101 · Avril 29, 2021, 11:24

Pleins de façon. La plus simple mais pas la moins coûteuse est de faire appel à des API d’extraction de produit. Tappe Product data API dans google pour trouver ton bonheur. C’est globalement du text-mining

A première vue leur BM c’est la vente d’espace pour les pros dans un annuaire + partenariat avec les gros sites. Du coup je dirais que le navigateur visiteur sert pour scraper lors de la recherche d’info, donc qu’il y aurait une configuration propre à chaque site. Ca m’étonnerait qu’ils dépensent des milliers d’€ mensuel pour avoir les produits à jour dans une BDD.

Comme dit camille, tu fais des configurations de base pour les gros moteur e-commerce, avec des variantes + un peu de spécifique genre la fnac ou zazazon, et tu couvres une partie. A toi de tracker ensuite quand il n’y a pas de matching, pour créer une config spéciale pour le site si tu as trop de demandes dessus.

Faudrait créer un compte et analyser en détail pour avoir une idée plus fine.

august1 · Avril 30, 2021, 12:26

@Camille et @raz101, merci pour vos indications. Je vais évnetuellement commencer par utiliser une API d’extraction « nocode » style APIfy sur ces principaux sites pour voir rapidement si c’est satisfaisant sinon le refaire avec un browser headless comme Puppeeter ou Playwright. Je vous tiendrai informé.

vincen · Mai 1, 2021, 10:38

j’avoue que la rapidité de réponse est bluffante.

Je me rends pas compte du niveau de sécu des sites avec lesquels tu testes.

Mais sinon un bon vieux curl des familles et de l’identification de metadata si le site est bien structuré ?

Autres pensées : si la page produit est ref sur google shopping ils peuvent récupéré par ce biais plutot que par le site ? C’est peut être beaucoup plus « facile » au sens ou les données sont normalisées massivement par google.

august1 · Mai 1, 2021, 6:21

Merci @vincen pour les pistes.

Est-ce que je peux abuser et te demander de plus amples explications ou ressources sur les 2 pistes que tu évoques ? Je suis très junior en web dev.

curl & metadata
google shopping

Merci d’avance.

Augustin

vincen · Mai 1, 2021, 6:27

Google est ton meilleur allié, junior comme senior.

Curl : cURL — Wikipédia
Metadata : Métadonnée — Wikipédia
Google shopping : https://shopping.google.fr/

otassel · Mai 6, 2021, 5:34

Il y a 2 autres méthodes qui me viennent également à l’esprit pour récupérer ces données :

Scraper Google Shopping
Scraper les sites marchands en s’appuyant sur les données structurées (Schema.org) « Product » de chaque fiche produit : c’est assez bien implémenté désormais