Dux-soup - Une limite à ne pas atteindre ?

KheiraMzd · Janvier 3, 2019, 11:38

Hello,

J’espère que vous avez passé de belles fêtes de fin d’année !

Pour commencer la mienne, rien de mieux que du scraping !

Depuis peu j’utilise Dux-Soup, mais j’ai pu lire ( un peu partout sur le forum ) qu’il faut faire attention à ne pas atteindre une certaine limite afin de ne pas se voir bloquer son compte.

Un expert de Dux-Soup peut-il me renseigner ?

J’utiliser mon compte perso, et j’espère scrapper une centaine de profils par jour. ( Avec demande de connexion + envoi d’un message )

Merci pour vos retours

Une novice ;p

maria.dv · Janvier 4, 2019, 3:27

Bonjour,

Je suis Maria commerciale au sein d’une startup IT allemande, ici aussi nous utilisons Dux-Soup ce fut la première fois que j’utilisais cet outil.
La limite quotidienne est de 500 demandes de mise en relation, par contre attention dans les paramètres et le deuxième onglet, veillez á ce que vous ayez coché à ne pas ajouter deux fois la même personne dans un laps de temps donné.

Bonne journée

Kyrian · Janvier 11, 2019, 3:17

Bonjour,

La limite quotidienne est de 500 demandes de mise en relation, par contre attention dans les paramètres et le deuxième onglet, veillez á ce que vous ayez coché à ne pas ajouter deux fois la même personne dans un laps de temps donné.

Effectivement c’est très important d’émuler au maximum un véritable utilisateur !

La limitation n’est pas seulement du côté de Dux-Soup, car lorsque tu es un utilisateur lambda sans abonnement sur Linkedin tu es déjà limité dans le nombre de personnes que tu peux voir et le nombre de pages que tu peux visiter dans une recherche. Rapidement en utilisant ton quota Dux-Soup c’est Linkedin qui va te flouter les profils et te proposer de passer au niveau recruteur avec abonnement, ainsi de suite.

De plus si tu scrapes et que Linkedin t’affiche à ce moment-là la notification pour passer à un abonnement supérieur, ils vont rapidement se rendre compte que tu utilises un robot. Et là tu es parti pour attendre quelques heures avant qu’ils ne te débloquent (automatiquement).

Le gros problème de toutes ces solutions c’est qu’elles doivent fonctionner lentement pour déjouer la sécurité de Linkedin.
Dans mon cas je scrape seulement les urls des profils sur les pages de recherches linkedin en utilisant les search operator de linkedin, ex : OR, AND, les titres de jobs à ne pas intégrer, puis je copie/colle le tout dans un fichier Excel pour avoir les titres de chaque utilisateur, j’enlève rapidement tous ceux dont le titre n’évoque rien d’intéressant pour ma recherche. Puis je rouvre toutes les URLs de profils que j’ai conservés et elles s’enregistrent avec Dux Soup, ça réduit drastiquement le temps de traitement 7 h->1 h et de limiter l’utilisation du quota gratuit et l’intervention du robot .

**Mon astuce pour scrapper un maximum de personne sur les recherches Linkedin : **

Mettre le filtre d’abord sur 2e relation, scrapper
puis mettre le filtre sur 3e relation & + scrapper
cocher la case pour ne pas ajouter les personnes qui n’ont pas de photos, ou qui sont hors de mon cercle 3e (pas de photo = pas d’activité sur Linkedin = 0 intérêt/lead)
Cette astuce me permet d’accéder à beaucoup plus de personnes !

Alexhc · Janvier 19, 2019, 10:06

Hello,

Kylian super astuce pour ne pas mettre ceux qui n’ont pas de photo ! En revanche pourquoi mettre d’abord les 2eme relations et ensuite les 3eme ? pas con les opérateurs boléens je triais sur excel avant.

Alex

Kyrian · Janvier 20, 2019, 11:49

Cette astuce permet d’accéder à tous les utilisateurs affichés dans une recherche.
Par exemple, disons que Linkedin t’indique qu’il a trouvé 1500 personnes correspondantes à ta recherche.
C’est bête, mais Linkedin ne t’autorises si je me souviens bien à n’accéder qu’aux 100 premières pages de ta recherche, chacune d’elles n’affiche que 10 utilisateurs
100 pages* 10 utilisateurs = 1000 utilisateurs max d’affichés par recherche

Tu ne pourras donc accéder qu’à seulement 1000 utilisateurs sur les 1500 que Linkedin recense, car Linkedin mélange les personnes trouvées en 2e et 3e relation.

Disons maintenant que je coche afficher seulement les 2e relations ce qui me donne 700 utilisateurs, je pourrais tous les visiter, car le nombre est inférieur à 1000 personnes.
Je pourrais ensuite faire les 3e relations en décochant les 2e relations, ce qui me donnera seulement 800 personnes.

Pour conclure si je n’avais pas fait cette manipulation je n’aurais pu seulement voir que 1000 utilisateurs, alors que l’astuce des 2e et 3e relation permet de tous les voirs.

ScrapingExpert · Janvier 20, 2019, 11:55

Oui ça marche ce coup ci.

Mais quand une recherche spécifique nous donne disons, 40K résultats, il faut user de divers stratégies de découpage de notre requête principale en sous requêtes, et le simple filtre du degré de relation ne suffit malheureusement plus…

Dés lors, il faut faire des combinaisons de critères, qui peuvent aboutir à 40 sous requêtes…

karni · Janvier 20, 2019, 4:07

Tout en sachant que le decoupage d une recherche en plusieurs sous recherches ciblees generent une hausse du nombre de queries et accelere donc l arrivee de la limitation free qui incite a passer au premium.

ScrapingExpert · Janvier 20, 2019, 5:03

Tu aurais atteint la limite du free dans tous les cas, même sans sous recherches ciblées, car malheureusement rien que le fait de cliquer sur page 1, page 2, … page 100, compte pour 1, 2, … 100 requêtes…(un clic sur bouton page suivante = +1 requête comptée)

karni · Janvier 20, 2019, 5:40

Tout a fait d accord sur le fond, je pensais au cas ou par exemple tu cherches des designers dans la ville x, si on injecte des prenoms a chaque nouvelle query par exemple pour ratisser plus large on peut se retrouver parfois avec 2 ou 3 results voire 0, du coup on a crame 1 query pour rien ou presque et mecaniquement on se prend plus vite le warning compte free…

ScrapingExpert · Janvier 21, 2019, 10:02

Ah yep je vois, ce que tu veux dire c’est qu’en cramant des requêtes qui ramènent moins de 10 résultats, on perd en potentiel de ce qu’on pourrait faire sur des requêtes plus larges.