Techniques de collecte des CV Remixjobs, Doyoubuzz, Apec, Pole Emploi,

Bonjour,
J’aimerai échanger avec ceux qui comme moi s’intéressent aux techniques de collecte de CV sur Remixjobs, Doyoubuzz, Apec, Pole Emploi … en vue de constituer une CVtheque. Faites vous connaitre ici :wink:

1 « J'aime »

Bonjour, cela m’intéresse :wink:

Bonjour @Laurent174575, @habask,

Pour des besoins pro/clients et récurrents, j’ai mis en place des robots d’extraction de données +CVs sur Apec (nécessite de se connecter via identifiants user au préalable), et Pole Emploi.

La problématique principale sur ces sites étant la mise en place et découpage intelligent de requêtes et sous requêtes, afin de cibler au mieux, et d’obtenir les données des profils qui vous intéressent, sans être bloqué par les limites imposées par ces sites.

Par exemple, sur Pôle Emploi, on sera toujours limité à 150 résultats quelle que soit la requête, d’où la nécessité d’effectuer un découpage en plusieurs sous requêtes pour obtenir le maximum de données récentes.

Concernant Apec, on sera limité par le fait qu’on doive obligatoirement se connecter, il y a donc un tracking évident, impossible d’être anonyme, et le nombre de visite de fiches CVs est limité. Si on en visite trop d’un coup --> bim, CAPTCHA …

2 « J'aime »

Tu peux faire du scrap Google via footprints : doyoubuzz ou remixjobs.

3 « J'aime »

Je suis fortement intéressé, j’ai besoin de scrapper des emails et téléphones de potentiels prospects via les cv pole emploi. Est-ce qu’il y a un moyen de le faire ou je continue manuellement?

1 « J'aime »

Bonjour,

Assez simple, vous déposez de fausses offres d’emploi.
Après tout est question d’éthique : « C’est pas sympa de faire postuler les gens à de fausses offres d’emploi »

C’est pourtant ce qu’a fait paypal avec ebay pour se faire connaître :
"Bonjour nous sommes intéressés par la télé que vous avez mise en vente sur Ebay, nous souhaitons payer via Paypal. Pouvez vous créer un compte paypal?

Et voila comment des milliers de vendeurs ebay ont installé paypal et se sont « fait avoir »

1 « J'aime »

Tout process effectué manuellement sur un site web, peut être automatisé, c’est le cas sur P. Emploi :slight_smile:

Toutefois, la complexité, et les outils à mettre en oeuvre, ainsi que l’investissement (temps, argent) diffèrent en fonction du site ciblé. Avec P. Emploi, on se rend compte qu’on peut vite avoir à faire à une usine à gaz, quand on regarde leur formulaire de recherche et le nombre de critères qu’il est possible d’utiliser: https://candidat.pole-emploi.fr/candidat/rechercheoffres/avancee/A______P__________INDIFFERENT_______________________;

Par contre, si vous avez un minima de bagages techniques, vous pourrez peut être appliquer une des très nombreuses solutions de scraping existante. Coir un listing plus ou moins complet ici : https://www.facebook.com/ghostscraper/posts/389052458134289

Après, pour appliquer un process d’automatisation d’extraction de données sur Pôle Emploi, il faut également connaitre leurs limitations (exemple, uniquement les N premiers résultats par recherche sont accessibles/affichés, au delà, pour tous les atteindre, il faudra découper la recherche principale avec d’autres critères).

Mais pardon, je m’étale, pour répondre à la question simplement: Oui il y a moyen de le faire en automatique :sunny:

1 « J'aime »

Oui mais le temps passé à s inscrire sur Paypal c est 2 minutes max alors que repondre à 1 annonce serieusement c est beaucoup plus long quand on le fait bien , sans parler qu il s agit parfois d un public souvent deja fragilisé à la base…Apres je ne juge pas le truc mais perso la methode me gêne (ça n engage que moi).

2 « J'aime »

il faut faire un script de telechargement des pdf
puis parser les numéro et email
ca marche

1 « J'aime »

@ScrapingExpert je vois que tu connais bien. on est passé par les mêmes chemins :slight_smile:
d’ailleurs on s’est aperçu que la limitation c’est un bug et pas voulu
leurs cookies cryptés sont aussi un truc très bizarre mais c’est une base intéressante

bonjour, @ScrapingExpert,
tu as bien résumé sur Pole emploi. On est plutot à 500 sur PE en étant loggé
je démarre sur APEC

Intéressant ce topic ! A part do you buzz j ai jamais eu l occasion d’attaquer le « sourcing » de CV en particulier sur PE et l APEC mais je vais tester pour voir…Pour les limitations de nbre de vues de CV ,vous avez essayé les créations de comptes massives pour plus de marge de manoeuvre ?

++

Vous avez des comptes recruteurs ?

Compte entreprise pour ma part !
Si quelqu’un a une solution pour scraper les mails des ‹ cv pôle emploi › ça m’intéresse énormément pour faire du cold mailing et recruter des auto entrepreneur.
J’ai remarqué que tous les cv étaient de la même forme avec le mail toujours à la même place.

1 « J'aime »

Pour créations de compte massives sur l’A P E C c’est difficilement réalisable, il faut un SIRET réel, prouver qu’on est bien une entreprise réelle, avec vérification de leur leur côté… Sinon effectivement cela serait du pain bêni !

Pour PE, ce n’est pas la même problématique, c’est juste une limite de résultats par recherche, comme sur beaucoup de sites.

Les CSVs sont aux formats PDFs, DOC, DOCX, du coup on ne pourra pas utiliser le même parser, en fonction du format du document, mais c’est faisable.

Techniquement ce qui est réalisable, c’est l’indexation du contenu texte des CVs, quels que soient leurs formats, puis appliquer deux regexs; une pour l’email, l’autre pour le numéro de téléphone, regex prenant en compte les variations de formats des numéros de téléphone.

Je ne crois pas trop aux bugs quant à cette limitation du nombre de résultats, je pense que c’est voulu, justement pour éviter qu’on leur pompe trop facilement toute leur base, et également pour des soucis de performance.

Je sais que niveau techno certains services publiques sont à la rue, mais faut pas exagérer :smile:

1 « J'aime »

Avec siret obligatoire effectivement ça se complique… dommage

Bonjour,

Je suis debutante en scrapping et python :pensive:, je voulais scrapper des cv en pdf a partir de Doyoubuzz par exemple, j’ai essayé le script de téléchargement (voir ci dessous) mais il me donne que les lien html !! je voulais enregistrer tout les cv existants , pourriez vous svp me proposer ce que je peux faire, si vous avez des propositions :slight_smile:
import urllib2
import re

url = « http://www.doyoubuzz.com/fr/list/lastRegistered »
#connect to a URL
website = urllib2.urlopen(url)

#read html code
html = website.read()

#use re.findall to get all the links
links = re.findall(’"((http|ftp)s?://.*?)"’, html)

print links

Hello,

Je ne vois aucun CV en pièce jointe à télécharger sur Doyoubuzz (type PDF, DOC, DOCX, RTF, etc). De plus ce site semble complètement bugué (les 3/4 des pages mentionnent « Désolé, la page que vous demandez n’existe pas ou a été dépubliée. »).

Sinon, concernant les CVs que l’on peut obtenir depuis APEC, Pole Emploi, Meteojob, RegionsJob, il faut dans tous les cas un compte recruteur, et un bot si possible en headless browser pour éviter toute suspicion, et mimer au plus un comportement humain.

1 « J'aime »