Scraper growthhacking.fr avec nodejs

Howdy !

J’ai écrit un article pour scraper avec nodejs la home de growthhacking.fr

Un grand merci @mnmlstrntreprnr qui nous fournit de belles ressources sur le sujet en ce moment.

Bonne journée :slight_smile:

8 J'aimes

hahaha parfait :joy:

Tu devrais regarder aussi cette page : https://www.growthhacking.fr/users

Cool ton article en tout cas, pour débuter. Ce serait une bonne idée de continuer les articles, pour suivre ton évolution et apprendre en même temps.

top l’article, merci !

En effet, ca fait un excellent guide pour débutant en nodejs (comme moi :slight_smile:) )

Ahah, merci @VivianSolide :wink:

Une MAJ arrive pour booster encore plus la puissance de jsonframe. Wait & see!

(A savoir que c’est ce que j’utilise en production couplé à son grand frère jsonpath (et des crawlers maison) sur du scraping à plusieurs milliers de requêtes/min et ça tourne. Je précise que toutes ces requêtes ne sont pas destinées à un même site, je suis gentil, je ne DDOS pas les sites que je scrape x) )

1 J'aime

Top Vivian, je cherchais à m’améliorer avec Node.js et à trouver un paliatif à Phantombuster. :smiley:

T’es arrivé à utiliser Node pour caller ton script sur un serveur et le faire runner en auto de manière périodique ? (ex : sur des sites avec du scroll, des posts liés à des # sur twitter ou beaucoup de contenu actualisé).

Pour faire ça @Hugostamp je ne peux que tu conseiller de t’intéresser à Lambda d’AWS (Amazon Web Services) et si tu veux aller beaucoup plus loin dans tes projets au Framework Serverless.

Tu as directement la possibilité de mettre en ligne ta fonction (node.js) et de planifier les lancements via des Scheduled Events.

Sinon je ne peux que te recommander d’utiliser Nightmare.js pour l’automatisation sur des sites demandant de passer par un navigateur (donc là en headless).

2 J'aimes

Danke Schön.
Scheduled events c’est comme une tâche CRON

1 J'aime

@mnmlstrntreprnr tu as une IP fixe avec Lambda AWS ?

Yes c’est comme des tâches CRON :wink:

Pour être tout à fait honnête, j’initialise seulement le portage de mon architecture monolitic sur du serverless. Donc je ne connais pas encore 100% des features.

Cependant je sais que tu peux configurer une API Gateway pour te connexions entrantes ou mettre en place une passerelle NAT pour identifier ta fonction Lambda AWS (A savoir qu’une fonction est faite pour scaler et donc être dupliquée et donc multiplier ses points d’accès donc tu n’auras jamais une IP unique d’après moi - à tester).

Ok parce que moi du coup je travaille avec des instances EC2 que je configure pour avoir tous mes modules.

Yes. Je te conseille de t’intéresser à Lambda. Pour ce que l’on fait, c’est d’après moi le Saint Graal. Tu ne payes qu’à l’exécution (tu n’as donc pas de serveur qui tourne à payer chaque mois), tu déconstruis ton app en fonctions de ce qui te permet de mettre à jour indépendamment chaque élément sans avoir à tout re-déployer et de la même manière, si une fonction foire, le reste peut continuer de fonctionner (tout dépend comment tu connectes le tout après). Et ce n’est que quelques uns des arguments. Tu peux aussi scaler sans limites. Lancer 2’000’000 requêtes (bon, pas sur le même site hein ;p) toutes en même temps sans problème. Etc.

J’imagine 2 000 000 sur le même site :grin: (remarque si tu as 1000 fakes comptes linkedin tu peux :grimacing:. Je vais regarder ce weekend, j’ai juste du mal à voir comment je vais déporter mon serveur node et tous les modules. Si t’as une doc que t’as déjà testée, je prends

Je pourrais mieux t’en parler une fois que j’aurais fini le portage :wink: (dans les semaines / mois qui viennent).

Sinon tu peux déjà voir https://serverless.com qui est un framework open-source développé par la communauté et pour aider à développer une infra serverless. Coca Cola l’a adopté et d’autres grosses boîtes aussi. La team a l’originie du projet a levé des fonds pour l’améliorer rapidement.

Tu trouveras des exemples ici : https://github.com/serverless/examples et pleins de ressources ici : https://github.com/JustServerless/awesome-serverless.

1 J'aime

En fait c’est possible d’avoir une IP fixe https://medium.com/@matthewleak/aws-lambda-functions-with-a-static-ip-89a3ada0b471#.ld9bivwg0 mais ça demande un peu configuration