Scraping site à site ?

Salut tout le monde,
Je précise que je ne suis pas expert en scraping.
Je me demandais s’il était possible de scraper les données d’un site pour les réutiliser sur un autre site (à créer) sans passer par des fichiers csv ou autres ?
L’idée étant de scraper des infos en anglais (craiglist par exemple) les retravailler et traduire pour les présenter à une cible francophone.
On peut penser à Google Translate mais ça ne s’applique pas à mon vrai cas :wink:
J’ai pensé à simplescraper.io pour extraire les données. Pas d’idée pour le reste (transfert vers un autre site, traduction, monétisation potentielle, idée légalement défendable ou pas, etc.).
Merci de vos avis et bonne journée !!

Hello,

je fais ça pour plusieurs sites shopify : scraping d’un site pour constituer une base de données de produits et de prix et création des produits sur d’autres sites via l’API shopify. Je fais certaines traductions aussi mais c’est sur des mots récurrents donc pas d’appel à un traducteur.

Hello @Hamma79 ,

Techniquement, tout est possible :slight_smile: . Dans ton cas de figure, on peut trouver un élément de réponse lorsqu’on détaille étape par étape le processus plus global dans lequel s’inscrit le web scraping, à savoir l’ETL:

  1. Extract (scraping)
  2. Transform (uniformisation, normalization, traductions, et autres transformations de la donnée brute)
  3. Load (chargement des données dans un système tiers, intégration de ces dernières dans une DB, une via API, upload de fichier CSV, etc)

Du moment que ton processus est bien découpé selon ces trois étapes, tu pourras travailler sur chacune d’entre elles de manière indépendante.

Pour la partie « réutilisation » des données extraites, il te faudra naturellement déja identifier quelle sera leur destination finale (prestashop, shopify, wordpress, fichier excel, google spreadsheet, etc etc). Une fois cette destination définie, tu sauras à quel format doivent répondre les données à intégrer.

1 « J'aime »

Pour la partie restitution un cms suffit

Salut Hamma,

Nous pouvons construire ce genre de scénario en 10 minutes via notre plateforme.
Nous allons avoir nos premiers beta testeurs en mai, si cela t’intéresse d’en faire partie tu es le bienvenu.

Sinon, j’aurai été regardé vers apify ou integromat.