WebScraping - Génération des URL à partir d'un site

Bonjour,

Je suis Growth Hacker depuis peu dans le monde du recrutement et j’ai pour objectif d’améliorer l’acquisition de leads clients (Prospect + Sourcing)

Depuis 2 mois, je travaille sur un tableur sheets afin de scraper les offres d’emploi sur le web.

J’ai donc commencé mon tableur par la récupération des URL des sites Jobs/Careers à partir du nom de la société : exemple : SUEZ --> https://www.suez.com/en/careers. J’utilise les fonctions importXml, importHtml & importFeed.

Maintenant j’aimerais pouvoir récupérer dans mon tableur (je ne sais pas sous quelle forme justement…) les différentes offres d’emplois du site via l’URL.

Auriez-vous des idées et des conseils ?

Merci d’avance pour votre aide,

Grégoire

Hello Greg, je ne suis pas certain de comprendre ta problématique.

Mais de manière générale, je dirais que faire du scraping à partir d’un tableur sheet, en utilisant des fonctions comme importXML etc, ce n’est pas la meilleure des idées, car ce n’est pas le but initial de l’outil… Même si ça fonctionne parfois, ça ne marchera pas tout le temps et tu pourras vite rencontrer des limites.

Pour d’autres outils, n’hésites pas à consulter la section Scraping dans la toolbox du GH:

1 J'aime

Bonjour,

concrètement mon idée est de scraper des offres d’emplois en fonction de mots clés…

je ne sais pas du tout par quoi commencer ni par quels outils passer.

merci d’avance pour ton aide,

Grég

Voir toolbox du GH, section scraping, et monter en compétence sur des outils de type:

Ou voir dans la marketplace si tu souhaites déléguer cette tâche.

Je ne procéderais pas de cette maniere, je pense.

J’utiliserais plutot un cse (https://cse.google.com) que je « filtrerais » avec l’ensemble des urls des sites de recrutement. Ensuite, avec ton CSE, tu peux créer un google script* et te faire une fonction pour chercher les offres d’emploi sur l’ensemble de ces sites.

*ca me donne l’occas de placer mon article sur les google scripts :wink:

1 J'aime

Intéressant, du coup GSheet possède sa propre fonction « fetch » mais n’utilise pas l’API Fetch native qui retourne normalement une Promise?

Ce qui simplifie énormément les choses du coup, plus de notion de Promises ou async/await ou chaînage de .then( () => … ) :slight_smile:

Google Script, c’est le kif ! tu vas adorer xavier

1 J'aime

En fait j’utilise déjà Google Script mais d’une autre manière: pour le besoin de clients je gère automatiquement, et entièrement tout le contenu du tableur depuis les fonctions Google Script de Sheet.

Par exemple:

  • à partir de plusieurs sites d’offres d’emplois d’une verticale bien spécifique, j’ai dev. des bots de scraping qui alimentent quotidiennement une base de données avec pour chaque nouvelle offre de poste: nom de l’entreprise, nom contact, job proposé, lieu, email contact

  • en surcouche de cette base de données, j’ai implémenté une API qui permet de récupérer les données des robots de scraping et d’y avoir accès depuis n’importe où

  • le Google App Script du Sheet en question vient quotidiennement interroger cette API afin d’ajouter de nouvelles lignes au tableur, une nouvelle ligne par nouveau contact trouvé (aucun doublon)

  • le commercial de l’entreprise qui a accès à cette Google Sheet peut alors prospecter tranquillement tous les matins en utilisant les données fraîchement ajoutées

En résumé, Google App Script, c’est le pied :slight_smile:

2 J'aimes

je me disais aussi…bizarre que tu ne connaisses pas !

j’ai le mm flow our qqs sites (call api quotidien => nouvelles lignes). Je te fais un DM pour le use case dont tu parles :wink:

Merci @cebri et @ScrapingExpert, vous me donnez énormément d’idées avec les Google Scripts !

Je n’avais jamais vraiment regardé car pas de usecase en tête et surtout j’ai une phobie du js depuis toujours … mais je vais m’y mettre sérieusement :wink:

Je peux comprendre ta phobie du JS, avant j’étais comme toi, mais le language a énormément évolué.

Avant quand on lisait le code, c’était imbuvable. Désormais, tu peux quand même obtenir des trucs largement plus propres, et c’est vraiment « fun » à coder. Mets toi direct à JavaScript en ES6/ES7/ES8, c’est le pied :wink:

Sinon concernant Google Sheet et Google App Script, ca présente pas mal d’avantages, dont un des principaux: une vaste majorité d’entreprises bossent toujours et encore avec du tableur / excel, ça reste LA manière la plus simple pour eux de travailler. Sauf qu’avec du Google Sheet, le tableur peut être partagé et permet le travail collaboratif, et surtout… peut être MAJ automatiquement par un tiers :slight_smile:

1 J'aime

Enjoy :slight_smile:

2 J'aimes

Et après le commercial me spam.

En effet ! Et comme j’ai beaucoup de petits side projects, ça peut permettre de faire des protos rapidement et le faire tester aux utilisateurs finaux sans avoir à créer un site !

Et merci pour le lien @cebri :slight_smile: