Scraping email d'une offre d'emploi

Salut la communauté,

J’arrive à récupérer les emails de cette page grâce à Email Auto Extractor (rien de compliqué jusque la) Certains emails ne sont visibles qu’en cliquant sur « Voir l’annonce ». Comment les récupérer automatiquement ?

Si je veux aller plus loin, comment récupérer l’annonce en entière (qui me permettrait d’obtenir le nom de l’établissement) ? Et comment le faire pour toutes les pages du site ?

Sinon j’ai récupéré les urls de toutes les annonces en ligne, y’a t-il un outil qui peut aller me récupérer les emails / annonces sur chaque url?

Merci pour votre aide, :slight_smile:

Christophe

Hello Christophe,

Me concernant je sais quel script développer pour browser les urls automatiquement et en extraire les emails. Mais priorité à la communauté, si il y a des outils déja existants pouvant faire ce boulot ?

Bien à toi,
Xavier

Salut christohpe,

Je ne sais pas exactement quel est ton profil mais je peux te proposer plusieurs solutions sans utiliser email auto extractor:

-Si tu as un profil un peu tech et que tu connais le javascript je te conseille de regarder du coté de PhantomJS et CasperJS qui te permettent d’écrire des scénarios afin de récupérer des données comme tes mails.

-Si tu as un profil moins tech tu peux essayer parsehub qui te permet de créer assez simplement des scénarios sans toucher une seule ligne de code. (cela pourrait te servir plus tard aussi)

Désolé de ne pas avoir de réponse plus simple que celles ci mais je pense que cela pourrait t’être utile si tu comptes scraper d’autres données plus tard. (si tu es intéressé par du scraping un peu plus lourd ou sur le long terme : phantombuster pourrait t’intéresser aussi)

Bien à toi,

Antoine

Merci Antoine,

Je n’ai pas un profil tech pour le moment, mais je compte bien m’y mettre sérieusement dans les prochains mois.

Je regarde parsehub !

Dans l’attente de la communauté Xavier, je suis bien évidemment preneur :slight_smile:

Bien plus simple et rapide qu’en PhantomJS/CasperJS, un rapide script PHP fera l’affaire, en input tu lui passes un CSV contenant les URLs que tu as récupéré, en sortie, tu auras les emails correspondants à chaque lien :slight_smile:

Sortir l’artillerie lourde (PhantomJS) pour un contenu HTML te donnant l’email sans cryptage Javascript ne me semble pas justifié.

1 « J'aime »

Je n’avance pas malheureusement sur la résolution de mon problème.

J’ai trouvé cela qui semble correspondre parfaitement à mon besoin, seulement je n’y connais absolument rien en php : http://www.reportingbusiness.fr/marketing-internet/un-script-php-pour-recuperer-des-milliers-dadresses-mail-automatiquement.html

Qu’en pensez-vous ?

Est ce que tu as le CSV contenant tes URLs trouvées précédemment? Envoies le moi en MP; je regarde si c’est faisable en 10min ou pas.

Bien à toi,
Xavier

Hello Christophe, même profil que toi (non tech).
Pour ce genre de tâche, j’utilise Mozenda. Quelques alertes tout de même : l’outil est payant et il faut quelques jours pour bien le prendre en main…

Sinon tu peux passer par un freelance du forum ou sur Upwork.

Hello, en effet j’en étais arrivé à cette conclusion.

Je me suis occupé de fournir les résultats à partir du fichier d’URLs en entrée, mais celles ci ont mal été générées par l’outil utilisé, du coup on est en train de voir pour automatiser le full process depuis le départ.

Sinon pour rebondir sur ce que tu viens de dire, et partager mon expérience de freelance, il y a des compétences et des projets sur Upwork et Hopwork (plateforme Française qui n’a pas du tout copier le précédent…non non :smile: )

Hello ,

si tu as déjà les url des annonces, tu peux extraire le texte inclus entre les div de la classe « ad_texte » avec un script en php, python(avec la bibliothèque beautifulsoup pour scraper et openpyxl pour extraire sous excel) ou JS (avec phantomjs), ensuite une fois que tu as le texte tu peux extraire l’e-mail dans excel avec les fonctions stxt(), cherche(), trouve() et concatener()