Scraper annonces automatiquement pour bdd

Bonjour!
j’espere que vous vous portez bien?!

j’ai un petit soucis au quel je ne trouve pas un post qui répond déjà à mon inquiétude et j’ai voulu l’exposer

en effet, je désir créer une application centrale qui publie des offre d’emploi et pour cela j’ai pas envie chaque jour de me connecter sur les site cibles pour les publier manuellement mais j’ai voulu l’automatiser.
en effet, j’ai une liste de site par exemple : cdiscussion.com, reexo.bj/emploi et bien d’autre qui publie chaque jour des annonce d’offres et pour cela il faut se connecter et lire les offres d’emploi par catégorie! et ça je veux l’automatiser! je désire écrire un robot qui collecte les offre d’emploi par catégorie suivant chaque structure de site pour les enregistrer dans une base de donnée personnel, ce rot sera héberger en ligne naturellement! le script ira chercher chaque jour les nouveau articles publier (les offres d’emploi et autre) pour les mettre dans ma base de donnée
donc ce que je cherche c’est de savoir s’il y as des solution de script qui ont été déjà écris pour m’aider à m’adapter rapidement à mon problème ou… si oui je serai très preneur
j’ai lu sur scrapy et phantomjs mais je ne sais pas comment m’y prendre concrètement!! mais je sens qu’il y as déjà des solutions toute faites ou similaire!!!

MERCI et MERCI POUR VOS APPORTS!

Hello @sem,

je me porte bien merci :slight_smile:

Il se trouve que j’ai développé une solution qui réponds à ton besoin.

On peut en discuter si tu veux. Envoi moi un message privé avec tes coordonnées.

@+

oui ouvert à tout! les gars!!

Tu maitrises un language de programmation ou pas ?
Si tu veux lancer une app, il va falloir que tu mettes tes petites mains au travail. En Pyton je te recommande https://github.com/holgerd77/django-dynamic-scraper mais qui demande un certain bagage technique.

Etant donné la très forte probabilité de différence de structures/techno utilisées sur chacun des sites d’offres d’emploi de ta liste, il y a fort à parier qu’il n’existe pas de solution déjà implémentée capable de gérer tous ces sites d’un coup.

Chaque site étant différent il te faudra une configuration adaptée à chaque site, sans parler de la gestion du Javascript, comportement navigateur, login automation, gestion session/cookies, etc.

Du coup, certains sites demanderont l’utilisation de certaines technos, alors que pour d’autres, d’autres technos plus light/simples peuvent être utilisées, c’est vraiment du cas par cas.

N’hésites pas à faire part de tes besoins plus détaillés, au plaisir de pouvoir te conseiller.

oui bien sur, Jice_Lavocat je suis developper web je fais du symfony reactJS et angularJS donc je me suis dis que je vais le faire moi même, donc pour le code pas de souci je vais me mettre , en faite je veux des pistes bien conçu pur ne pas me balader et bien faire mon boulot!!!

ScrapingExpert, je suis absolument conscient du cas par cas!! c’est ce à quoi j’ai d’ailleurs pensé!, donc je serai très ouvert pour vos orientation afin de ne pas perdre trop de temps et finalement ne pas faire ce que je veux faire puis laisser faute de motivation!!!

vraiment MERCI à VOUS!!!

Si tu maitrises JS et les sélecteurs CSS, je vais t’orienter vers le tuto d’un concurrent (mais on l’aime bien :smiley: ), hein @mnmlstrntreprnr

2 « J'aime »

@ScrapingExpert, jsonframe-cheerio me permet d’automatiser… (chaque jour et l’authentification…et autres? ) je me demande s’il peux gérer toutes les complexité de ma Situation ?

Si tu plugs cela avec du CasperJS , tu es tout bon : http://casperjs.org/

@ScrapingExpert ok, super!! vraiment gentil, je vais me mettre au boulot merci pour l’orientation!!!:+1:

@sem voici un petit tuto pour prendre en main casperjs : https://medium.com/@boristchangang/scrapper-linkedin-avec-casperjs-pour-les-nuls-e962812734a6
(J’aime pas faire de « l’auto pub » mais je pense que ça pourra t’aider) :slight_smile:

5 « J'aime »

très gentil @boristchangang je vais voir!!!

Le plus simple reste encore de t’orienter vers un simple Wget suivi d’un Grep le tout dans une boucle :wink: Par expérience c’est le plus facile et le plus rapide à mettre en place.

Car WGET et GREP ça gère l’aspect Javascript, login auto et gestion des sessions? :joy:

1 « J'aime »

@ctrl-s peut être y a une techno qu’on ne connait pas encore. Comment tu gères ce qu’il veut faire avec Wget et Grep ?

Si je ne dis pas de bêtises et si j’ai bien compris la problématique de @sem, il cherche à « écrire un robot qui collecte les offre d’emploi par catégorie suivant chaque structure de site pour les enregistrer dans […] ma base de donnée »

La majeure partie des sites d’offres d’emploi proposent leurs offrent en accès libre aux robots à des fins SEO.

L’idée c’est donc de Crawl le site à l’aide d’un script Bash et de récupérer les infos qui nous intéressent. Wget permettant de récupérer en local le contenu de la page et Grep d’extraire le contenu qui nous intéresse. Dans le cas où un site te demande une authentification, il suffit de transmettre les header http et cookies qui vont bien. Je dois avouer que l’aspect JS peut parfois poser problème si le site n’est pas SEO compliant.

Après j’ai peut-être mal compris la problématique ?

On essaye simplement de souligner le fait que ce n’est vraiment pas aussi simple que cela, et que la plupart des sites font usage de processus de login, ainsi que de Javascript + AJAX en mode intense pour charger de manière dynamique leurs contenus.

De plus, il s’agit d’avoir un process full automatisé, pluggué en crontab par exemple, qui pourra se logger tout seul sans avoir à copier manuellement chaque jour des headers créés par l’humain dans son browser. Surtout qu’ici il y a une liste de plusieurs sites à gérer.

Et de mémoire, aucun robot à ce jour ne fait encore du wget + grep, car c’est bien mois efficace que d’utiliser du sélecteur XPath ou CSS pour extraire avec précision les informations désirées.

L’aspect JS est de plus en plus présent, sinon omniprésent de nos jours, d’où l’obsolescence de ce type de solution non Javascript-aware.

1 « J'aime »

Je vois, il s’agit en effet d’une solution simple du type bricolage qui permet de mener à termes un Hack sans avoir à partir avec un certain bagage technique.
Une solution à cours termes au service du Marketing (dans mon expérience) mais qui peut répondre aux besoins à un instant T de @sem.

Après relecture du thread il semblerait que @sem soit dev web, ma solution est donc effectivement quelque peu hors sujet et d’autres technos sont certainement plus adéquates surtout dans l’optique de dev une solution pérenne :wink: Mea culpa

3 « J'aime »

Justement, @ctrl-s je réfléchissais sur ta solution mais je ne trouvais pas d’issu et comme d’autre (@ScrapingExpert) ont intervenu, cela viens confirmer un peu le doute que j’avais! et ben merci qu’en même pour ton apport!!

Thanks pour le partage. La librairie va passer en v3 bientôt (branche déjà dispo) avec beaucoup plus de modularité (possibilité de facilement plugger vos scripts pour augmenter l’outil).

J’ai plusieurs tutoriels / articles à venir. Je partagerais sur le forum bien sûr.

(@ScrapingExpert la demande est tellement forte que je ne suis pas sûr que l’on puisse vraiment dire que l’on puisse se faire de la concurrence ;P)

2 « J'aime »