C’est la première fois que je m’exprime parmi vous après avoir vu vos réponses d’experts et c’est assez intimidant, j’avoue…^^
Je débute dans le growth et je me lance quelques défis de scraping avant de débuter en entreprise dans le cadre d’un stage. Seulement, voilà le pôle emploi a eu raison de moi .
J’aimerais extraire les détails de chaque offre d’emploi tels que l’intitulé du poste, le lieu, le type de contrat, le nom de l’entreprise et le site web.
Lorsque l’on clique manuellement, sur une offre, un slider (javascript, j’imagine…) apparaît sur la droite. J’ai essayé avec l’outil Octoparse et Webscraper mais je pense que je m’y prends mal car un page blanche est visible lorsque j’essaie d’extraire les données. Savez-vous, s’il existe un moyen de parvenir à cette fin svp ?
Lorsque tu cliques sur une offre, le contenu de cette page s’affiche dans une barre latérale (UX plus sympathique), mais reproduire ce comportement via un scraper peut être compliqué. Même si je dois avouer que je ne maîtrise pas les outils que tu mentionnes.
Le plus simple de mon point de vue :
Récupérer ces liens
Les ouvrir un par un
Récupérer les infos dont tu as besoin depuis la page de l’offre
Bonjour Aeripet,
Merci pour ta réponse.
Je redoutais l’histoire des XPath mais finalement, c’était la solution visiblement.
Je vais essayer sur cette base.
Je te remercie
l’étape d’extraction de données doit s’exécuter en laissant quelques secondes d’attente en fonction de votre Internet. Car il faut que la page se charge avant que l’extraction ne commence
Si vous rencontrez encore des problèmes, vous pouvez aussi voir les autres plateformes, comme Indeed. L’article suivant montre un guide étape par étape pour scraper Indeed.
Encore merci Arnaud.
J’ai pu m’exercer toute l’après-midi. En revanche, je galère avec la pagination. Même en mettant le xpath comme indiqué par François, il ne scrape que la première page. Auriez-vous une idée du process à suivre svp ?
Merci pour votre aide
selon le mécanisme de pagination de ce site, il suffit de localiser correctement le bouton « Afficher les 20 offres suivantes ».
J’ai remarqué que octopares a réussi à générer le xpath correct (et donc on n’a pas besoin de modifier le xpath) et que l’extraction de données marche très bien pour les données sur les pages suivantes. Donc, réessayez-vous ? et faites-moi savoir plus précisément quel est le problème ? je serai très enthousiate de vous aider
Bonjour Arnaud,
Malgré toutes les tentatives, cela ne fonctionne toujours. Pensez-vous que nous pourrions faire une visio selon vos dispo pour m’aider à débloquer cette situation svp ?
Désolé pour le retard, si vous m’envoyez votre email adresse en message privé pour que je vous envoie le otd que j’ai fait ? Ainsi vous pouvez observer les différences avant de trouver le problème précisément, et vous pouvez également m’envoyer votre otd pour que je puisse vous aider.