Scraping offres d'emploi - Pôle emploi

Bonjour à tous,

C’est la première fois que je m’exprime parmi vous après avoir vu vos réponses d’experts et c’est assez intimidant, j’avoue…^^

Je débute dans le growth et je me lance quelques défis de scraping avant de débuter en entreprise dans le cadre d’un stage. Seulement, voilà le pôle emploi a eu raison de moi :confused: .

J’aimerais extraire les détails de chaque offre d’emploi tels que l’intitulé du poste, le lieu, le type de contrat, le nom de l’entreprise et le site web.

Lorsque l’on clique manuellement, sur une offre, un slider (javascript, j’imagine…) apparaît sur la droite. J’ai essayé avec l’outil Octoparse et Webscraper mais je pense que je m’y prends mal car un page blanche est visible lorsque j’essaie d’extraire les données. Savez-vous, s’il existe un moyen de parvenir à cette fin svp ?

Merci pour votre accueil et aide,

Ju

le lien des résultats de recherche : Offres d'emploi L1302 - France | Pôle emploi

Bonjour,

Si tu observes bien le code source de ta page, tu verras que tu as un lien vers l’offre d’emploi en question.

Lorsque tu cliques sur une offre, le contenu de cette page s’affiche dans une barre latérale (UX plus sympathique), mais reproduire ce comportement via un scraper peut être compliqué. Même si je dois avouer que je ne maîtrise pas les outils que tu mentionnes.

Le plus simple de mon point de vue :

  1. Récupérer ces liens
  2. Les ouvrir un par un
  3. Récupérer les infos dont tu as besoin depuis la page de l’offre
3 « J'aime »

Bonjour Aeripet,
Merci pour ta réponse.
Je redoutais l’histoire des XPath mais finalement, c’était la solution visiblement.
Je vais essayer sur cette base.
Je te remercie :blush:

ou sinon : https://pole-emploi.io/ :slight_smile:

1 « J'aime »

Bonjour Sam42,

De quoi s’agit-il svp ? :blush:

En effet, l’extraction marche très bien avec moi !

Il y a après tout deux points à faire très attention.

  1. vous devez vous assurer que le clic est paramétré comme « load with ajax »

  2. l’étape d’extraction de données doit s’exécuter en laissant quelques secondes d’attente en fonction de votre Internet. Car il faut que la page se charge avant que l’extraction ne commence

Si vous rencontrez encore des problèmes, vous pouvez aussi voir les autres plateformes, comme Indeed. L’article suivant montre un guide étape par étape pour scraper Indeed.

2 « J'aime »

ce n’est pas plus simple avec l’api Pole emploi ?

2 « J'aime »

Merci bcp Arnaud pour ce guide détaillé :star_struck:

Encore merci Arnaud.
J’ai pu m’exercer toute l’après-midi. En revanche, je galère avec la pagination. Même en mettant le xpath comme indiqué par François, il ne scrape que la première page. Auriez-vous une idée du process à suivre svp ?
Merci pour votre aide :pray:t5:

de rien, c’est un grand honneur que je peux vous aider :grinning:

selon le mécanisme de pagination de ce site, il suffit de localiser correctement le bouton « Afficher les 20 offres suivantes ».
J’ai remarqué que octopares a réussi à générer le xpath correct (et donc on n’a pas besoin de modifier le xpath) et que l’extraction de données marche très bien pour les données sur les pages suivantes. Donc, réessayez-vous ? et faites-moi savoir plus précisément quel est le problème ? je serai très enthousiate de vous aider

Ça serait plus simple de passer directement par l’api de pôle emploi comme indiqués par sam42 et Olivier_Niel

Vous auriez une capture d’écran de votre workflow au niveau de la pagination svp ?

Bonjour,
Merci pour votre retour.
Je ne sais pas comment m’en servir malheureusement…

bien sûr
voilà

1 « J'aime »

en effet, je ne sais grand chose en matière de api
c’est peut-être pourquoi j’utiliser des outils

Merci Arnaud, ça ne fonctionne pas de mon côté…

Bonjour Arnaud,
Malgré toutes les tentatives, cela ne fonctionne toujours. Pensez-vous que nous pourrions faire une visio selon vos dispo pour m’aider à débloquer cette situation svp ?

Désolé pour le retard, si vous m’envoyez votre email adresse en message privé pour que je vous envoie le otd que j’ai fait ? Ainsi vous pouvez observer les différences avant de trouver le problème précisément, et vous pouvez également m’envoyer votre otd pour que je puisse vous aider.

1 « J'aime »