Méthodologie - Scraping et insertion en base de donnée

gandolfi · Février 14, 2021, 4:49

Bonjour,
Je suis en train de me former à Puppeteer. Pour l’instant je teste le scraping pur. Mais dans le cadre d’un projet global, j’ai du mal à m’organiser pour savoir comment ensuite recuperer, enregistrer et gerer ces données. J’ai à la fois des données à inserer dans la DB de Worpress et d’autres que je voudrais stocker dans une database perso pour pouvoir en faire ce que je veux.

Auriez vous des conseils, une méthodologie et des noms d’outils à utiliser pour gerer cela de manière productive ?

MErci

ksahin · Février 16, 2021, 8:55

Le framework Scrapy en Python me semble le plus approprié pour ça: https://scrapy.org/

C’est très mature, open-source, plein d’option de backend pour ta data. Tu as plein de méchanisme pour vérifier l’intégrité de ta data etc.

gandolfi · Février 16, 2021, 10:25

Merci. Scrapy a l’air d’etre un framework sympa, j’ai vu qu’il faut lui rajouter des extensions comme Selenium pour scraper des sites JS.

De mon coté je me suis lancé dans le JS avec Pupeteer et je ne voudrais pas me mélanger avec du Python pour l’instant.

J’aurais voulu savoir si vous utilisez des programmes pour sauvegarder, gerer et exporter vos bases de données plus facilement (Acces, Mysql…)

mnmlstrntreprnr · Février 16, 2021, 4:20

Si tu veux une base de données simple en local tu peux utiliser une lib comme lowdb.

Sinon après tu peux mettre en place le service de ton choix sur un serveur en local. Vois suivant tes affinités avec les différentes technos de bdd dispo.

gandolfi · Février 16, 2021, 5:57

Merci.
En fait j’étudie toutes les possibilités pour avoir un outil avec une bonne productivité pour faire de l’automatisme (scraping, sauvegarde, modif, exportation) et ne pas trop bidouiller.

Je pense privilégier le local pour ensuite manipuler la bdd : actualisation, modif, export vers wordpress.
Lowdb se pretera à cela ou bien des logiciels plus lourds comme access et autres ?