Infrastructure de scraping opensource

Joachim_Brnd · Juin 16, 2020, 9:25

Bonjour à tous !

Je ne suis pas très actif sur le forum car je consacre beaucoup de mon temps en ce moment au développement du solution de growth hacking pour les boîtes dans le domaine de l’innovation.

Par contre, j’ai un ami allemand qui est sur un projet que je trouve magnifique techniquement.
Il s’appelle Nikolai, vous le connaissez peut-être par son autre projet open-source, le google scraper qui cumule plus de 2 000 étoiles sur github.

Le nouveau projet est ici. C’est un backend de scraping qui scale horizontalement.
J’espère que je vous ai pas perdu, pour faire simple: vous lancez une requête de scraping et ça ouvre un millier de navigateurs en parallèle sur AWS.

Je ne suis pas développeur, j’utilise son truc en tant que service sur son site. Mais je sais qu’il est presque en train d’abandonner parce qu’il trouve qu’il peut pas lutter contre des gros comme Apify. Même si son infrastructure est plus puissante et discrète…

Alors je me suis décidé à lui faire de la « pub ».

Le projet est 100% open-source et le restera toujours.

Si ça ne vous intéresse pas ou si vous n’avez pas les compétences pour l’utiliser, une étoile sur github est toujours appréciée et je suis sûr que ça lui donnera un petit coup de motivation !

Si vous avez des questions, il ne parle pas français mais je peux toujours transmettre.
J’espère que j’ai le droit de partager ici, je pense que oui dans la mesure où c’est du 100% open-source.

Merci et à bientôt !!

schéma présentant le fonctionnement

josselin · Juin 18, 2020, 10:29

Salut @Joachim_Brnd, force à lui, j’utilise sa lib se-scraper dans une niche!
Je vais regarder son repo Crawling-Infrastructure, ça a l’air top!