Scraping Pôle-Emploi

Bonjour à tous,

Je scrape depuis pas mal de temps avec l’extension Chrome « Web Scraper » et comme toujours, dès qu’il y a un site qui fonctionne avec du javascript ou avec une interface un peu complexe, impossible de scraper…

Voici des screens de la page en question et voici mon code, juste après :


{"_id":"pole-emploi","startUrl":["https://entreprise.pole-emploi.fr/recherche-profil/rechercheprofil?idOffre=082WGKY"],"selectors":[{"id":"element","type":"SelectorElement","parentSelectors":["next","debut"],"selector":"div.profil-hd-content div.media","multiple":false,"delay":0},{"id":"num","type":"SelectorText","parentSelectors":["element"],"selector":"dd:nth-of-type(1)","multiple":false,"regex":"","delay":0},{"id":"titre","type":"SelectorText","parentSelectors":["element"],"selector":"span.text-entreprise","multiple":false,"regex":"","delay":0},{"id":"email","type":"SelectorText","parentSelectors":["element"],"selector":"a.text-link","multiple":false,"regex":"","delay":0},{"id":"next","type":"SelectorLink","parentSelectors":["next","debut"],"selector":"#zoneAfficherDetailProfil > div.modal-header > div:nth-child(2) > div > div > button.btn.btn-default.btn-nav","multiple":true,"delay":0},{"id":"debut","type":"SelectorLink","parentSelectors":["_root"],"selector":"#liMiniCv8106265204 > div > div.media-body > h2 > button","multiple":false,"delay":0}]}

Si quelqu’un comprend comment je pourrais changer le code pour arriver à scraper cette page je lui en serais très reconnaissant !

Merci d’avance

Bonjour Nico,

Au regard de ce que tu as donné comme info, je dirais que nous n’en avons pas assez pour comprendre quel est le problème rencontré.

Pour pouvoir t’aider, il faudrait que tu puisses:

  • Décrire avec précision le résultat que tu cherches à atteindre, quelles sont la liste des champs à extraire
  • Expliquer quel est le problème que tu rencontres: quels résultats tu obtiens au final, à la place de quel résultats attendus.

Et aussi, est-ce que tu écris bien tes sélecteurs CSS par toi même, à la main, ou est ce que tu laisses l’outil le faire lui même?

1 « J'aime »

Bonjour ScrapingExpert,

Merci pour ta réponse.

Le résultat que je cherche à atteindre : un fichier excel avec le numéro de téléphone des candidats correspondants à mon offre, leur e-mail et leur description. (Jusque là rien de plus classique je pense.)

Le problème que je rencontre : Lorsque je lance le scrape, il s’arrête dès la première étape puisque Web Scraper est conçu pour ouvrir des links ou des pop-up mais pas du javascript.

Par rapport aux selectors, tout est bon. Quand je peux les sélectionner avec l’outil je le fais, et quand je ne peux pas je le prends à la main en inspectant l’élément.

Bon dimanche, en espérant que l’on puisse trouver une solution.

Là je ne te suis pas du tout, sur le point « ouvrir du JavaScript » ?

Bonjour,
Je me permet de relancer le sujet car je me casse aussi les dents sur ce site :frowning:

je souhaite scraper les mails des candidats mais impossible de passer de page en page avec mon « script »

{"_id":« poleemploiall »,« startUrl »:[« https://entreprise.pole-emploi.fr/recherche-profil/rechercheprofil?codeCompetence=873&codeMetier="],« selectors »:[{« id »:"Premier lien »,« type »:« SelectorPopupLink »,« parentSelectors »:["_root"],« selector »:« button.text-entreprise »,« multiple »:false,« delay »:0},{« id »:« nom »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:".name span:nth-of-type(1)",« multiple »:false,« regex »:"",« delay »:0},{« id »:« metier »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:« span.text-entreprise »,« multiple »:false,« regex »:"",« delay »:0},{« id »:« dispo »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:« div.experience »,« multiple »:false,« regex »:"",« delay »:0},{« id »:« tel »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:« dt:contains(‹ Numéro\nde téléphone ›) + dd »,« multiple »:false,« regex »:"",« delay »:0},{« id »:« email »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:« a.text-link »,« multiple »:false,« regex »:"",« delay »:0},{« id »:« adresse »,« type »:« SelectorText »,« parentSelectors »:[« Premier lien »,« next »],« selector »:« dt:contains(‹ Adresse ›) + dd »,« multiple »:false,« regex »:"",« delay »:0},{« id »:« next »,« type »:« SelectorElementClick »,« parentSelectors »:[« Premier lien »,« next »],« selector »:".-sitemap-select-item-selected",« multiple »:false,« delay »:« 5000 »,« clickElementSelector »:".modal-header span.icon-chevron-right",« clickType »:« clickMore »,« discardInitialElements »:« do-not-discard »,« clickElementUniquenessType »:« uniqueText »}]}

dans le tuto de web srapper https://www.webscraper.io/tutorials vidéo 2 ils disent que les liens en POST ne sont pas scrappable par l’extension. Est ce vraiment mon problème ? quelqu’un a réussit à scrapper les ifnos PE? si oui comment script custom ?

Merci :slight_smile:

En réalité, c’est pire que ça, j’ai regardé le code de l’extension WebScraper et il semble qu’ils se basent uniquement sur l’attribut href des balises a pour cliquer sur les liens, or une multitude de liens ne possèdent pas cet attribut car possédant un comportement géré par JavaScript :confused:

Merci,
Du coup vous me conseillez de faire du code custom ? Par hasard quelqu’un aurait il une base ? Ou au moins quelques conseil svp :slight_smile: Merci.

tu scrapes les cv ? j’avais fais une extension sur PE pour récupérer les CVs peut être ça t’aiderait. MP.

1 « J'aime »

Coder une extension Chrome ou le faire en bot Chrome Headless me semble une bonne idée :slight_smile:

Bonjour,
Bon j’avou que je me casse les dents dessus il me manque pas mal de compétence de scrapping.
Du coup est ce que un d’entre vous propose une presta de scrapping svp ?

merci

l’extension que je t’ai filée marche pas ?

Je suis encore a la lecture du code pour comprendre comment cela marche :slight_smile: et je voulais voir les options entre temps passé à comprendre extension vs externalisation et avoir des contacts pour futur projets . Mais je vais mettre un coup d’accélérateur sur l’analyse de l’extension .

Et apres test de l’extension sans comprendre :frowning: j’ai le meme probleme qu’avec mon script
le bouton suivant devient griséSans%20titre

L’extension fonctionne bien chez moi. c’est bizarre. elle s’arrête au bout d’un certain temps ?

Tu as quoi comme compte sur pole emploi ?

Recruteur.
Oui elle s’arrête au bout d’un certain nombre de profil mais de manière aléatoire. Et à ce moment le je ne peut plus rien faire sur le site faut que je refresh tout complétement et du coup impossible de reprend ou j’en étais :frowning:

Ton compte est vérifié ?

Oui j’ai status du compte « certifié »

Je m’intéresse également à ce fil, cherchant à récupérer les coordonnées de certaines catégories de recruteurs en IDF

@embargo @lokhi j ai un bot OP qui fait le job de scrap + envoi message interne, on peut voir en mp si vous voulez externaliser

1 « J'aime »

Tu as Windows? Tu peux faire l’automatisation / scraping avec Zennoposter.