Scrapper données carrières publiques sur linkedin

Bonjour à tous !

Je cherche à scrapper les infos de carrière publiques de profils linkedin, c’est à dire les infos que l’on voit lorsqu’on est sur un quelconque profil linkedin sans être connecté à son compte, et de le faire à plus ou moins grande échelle (eg 10 000 profils / semaine) - en partant de recherches google du type « [prénom] [nom] linkedin ».
Je ne veux prendre que de l’info publique (pas le mail).
Je sais que je vais avoir un pb de doublons (des Jean Dupont par milliers), problème auquel je m’attaquerai dans un second temps.

Quatre questions :

  • est-ce qu’un outil existe déjà ?
  • linkedin pourrait il me bloquer au dela d’un certain volume ?
  • si oui, comment le font-ils ? via IP, via cookie (je suis pas un expert désolé si je dis des ânneries) ?
  • des quelconques conseils pour bien s’y prendre ?

Merci !

L’ensemble de la carrière ou juste le dernier Jobtitle + company name ?

Hello Camille, l’ensemble de la carrière, donc chaque expérience pro et chaque champs d’une expérience (date début, date fin, titre position, entreprise, description - le lieu n’est pas important). J’aimerais bien avoir les champs éducation aussi.

2 « J'aime »

En mode déconnecté c’est possible, mais il te faudra un max de proxy, car au bout que quelques pages visitées tu es redirigé. Pourquoi pas utiliser Scrapingbee pour t’y aider (cc @ksahin, @daolf).

En mode connecté tu peux faire ça avec phantombuster : PhantomBuster (à voir les limites daily de LK, 600 je crois ? cc @boristchangang )

Après tu as des outils chers qui peuvent te fournir la carrière :

2 « J'aime »

Hello rapide retours sur notre progression :

  • en mode déconnecté c’est très très chaud, LinkedIn a l’air de s’être très bien protégé : même en utilisant des proxy, et en utilisant Scrapingbee (cc @ksahin, @daolf). on n’y arrive pas

  • en mode connecté on obtient des résultats avec Phantombuster et des fake compte créés pour cet objectif, on est en train de tester les limites je vous tiens au courant
    Merci pour tes conseils en tout cas @Camille !

1 « J'aime »

Hello Louismia,

en mode déconnecté c’est très très chaud

oui, ils sont assez robuste, mais pas impossible (dans le passé, j’avais scrapé l’ensemble des pages compagnies de Linkedin en moins de 12h). Il te faut des IP fresh, issue de différents providers.

1 « J'aime »