Linkedin : la nouvelle interface et le scrapp

Eytch, fallait s’y attendre ^^

¡ Buenos dias Gringos !

Est-ce que Linkedin vous bouffe une importante partie de votre RAM ou des ressources de vos ordinateurs ou serveurs ? J’ai des bugs à répétition causés par des avaries en ressources ces 2dernières semaines pendant le scrapp.

C’est Moi, Microsoft qui débloque sérieusement avec la gestion des ressources ou la technique la plus pétée du monde pour empêcher le scrapp ?

J’arrive à la bourre mais peux tu en dire plus sur le retour Json STP. Tu utilises un paramètre spécifique ?

Merci :slight_smile:

Je lag sur linkedin depuis le passage à la dernière version, je pense que leur code est juste trop lourd.

1 « J'aime »

J’suis pas seul donc :sunglasses:. Tu scrappes avec quoi ?

Qu’est-ce que t’entends par bugs ?

En extention sur linkedin, j’ai hunter, emailcatcher et duxsoup

Certaines extensions peuvent ralentir Lkn. Je vous conseille de les désactiver une à une pour voir s’il y a des changements.
De mon côté la nouvelle interface Lkn est plutôt stable.

1 petit indice : voyage voyage ^^

4 « J'aime »

Plus loin que la nuit et le jour…voyage…

2 « J'aime »

Je scrappe avec deux techniques. Sur un navigateur spéicifique dédié (style phantom.js) et l’autre sur un bot présent sur serveur (phantombuster). Donc je n’ai aucune extension supplémentaire en jeu.

Et bugs, c’est un abus de language, je voulais dire que mes scripts étaient arrêtés à cause des timeout que j’ai callé (sinon ça bloque le script).

Pour info rien que sur mon ordi, ça me bouffe jusqu’à 8 go de Ram quand je vais sur Linkedin. Hay un problema Muchacho jajaja !

8 GO de RAM et Linkedin prend tout ? Quelqu’un a piraté ton ordi c’est obligé :joy:
Ensuite pour tes scripts je déteste mettre des timeout, c’est pas robuste du tout.
Ce que j’aurais fais :
Pour chaque action :

  1. Détecter changement d’url
  2. Attendre que la balise body possède l’attribut .boot-complete
    Normalement avec ça, tes scripts n’ont pas de pb. Après peut être que ton script a une fuite quelque part.
1 « J'aime »

Tu as raison, mes scripts sont paresseux.

Mais ça ne résoudra pas le pb de la lourdeur sur Linkedin. Si j’ai plus de Ram, la page va s’arrêter. Je t’assures que j’ai essayé de mater ce qui déconnait en pensant que Linkedin avant sûrement un pb de boucle pas finie (ça commence à me prendre 1 go de RAM et 10 min après ça me bouffe les 8 go), je n’ai pas réussi à voir d’où venait le problème.

Tu fais quoi exactement sur Lkn ? QUoi comme scrap ? perso un script casper consomme à peine 180 Mo chez moi.

Je fais de l’extraction de donnée et de la visite de profil occasionnellement, mon script n’est pas en question, il marchait très bien avant. Ca me fait la même chose avec mon profil quand je suis dessus en perso.

Du nouveau après quelques tests:

Impossible de browser plus de 500 profils par jour, même avec un premium, dès lors qu’on ouvre les pages des profils depuis un lien externe (où que l’on « copie colle » l’url du profil).

Il semblerait qu’il faille rester dans une logique très humaine, où la vue de profils fait suite à une recherche via leur interface, et aux clicks sur les différents liens de pages profils résultants.

La réponse c’est déconnexion automatique, suivi d’un challenge Google Recaptcha lorsqu’on tente de se reconnecter, et ce pour chaque nouvelle page profil que l’on tente d’ouvrir.

Quelqu’un a eu un comportement similaire?

1 « J'aime »

Hello ScrapingExpert

Oui j’ai le même probleme
Je commence des tests pour en connaitre les limitations

Si tu as plus d’info, je suis preneur

Francois

1 « J'aime »

Je confirme cette limite, approximative au niveau du chiffre, qui déclenche déconnexion + captchas à chaque nouvelle ouverture d’un profil, lorsqu’on browse des profils depuis des liens externes (exemple, depuis Crunchbase).

Pour répondre à @jabric:
« Question peut-être stupide : si tu modifies le code html de la 500ème page via un Developpeur tool (en local donc) pour ajouter modifier lien dans la page par un lien menant vers le 501ème profil que tu veux voir, ils arrivent à le détecter ?
Après, ce n’est peut-être pas automatisable du tout… »

Remarque pas du tout stupide, constructive au contraire. Je t’aurais répondu oui, en temps normal sur un site lambda, mais là on a à faire à du lourd. La moindre action est monitorée, et je pense que si l’on ajoute « virtuellement » un lien dans une page alors qu’il ne devrait pas exister, on se fera vite repérer.

Le plus gros des visites de profils devrait venir de pages de résultats suite à recherche dans leur interface, ce qui doit certainement modifier certains cookies et paramètres de tracking sur lesquels nous n’avons pas la main lorsqu’on ouvre un profil depuis une source externe :confused:

2 « J'aime »

Bonjour,
Je souhaite scrapper les description des pages societe sur linkedin.
Mais j’ai quelque soucis étant donné qu’il faut être connecté pour voir la page.
Avez vous une petite astuces pour cela ou pas svp ?

Bonjour @lokhi,

Effectivement, il avait la possibilité de voir les profils publics, mais apparemment, il faut être connecté pour les voir.

Si vous avez une solution, je suis preneur

Merci
Francois