Scraper résultat sur google

Hello à tous

Mon équipe de dev développe depuis plusieurs mois un CRM que nous allons commercialiser rapidement.
Nous souhaiterions, afin de terminer une fonctionnalité, scrapper google pour récupérer les liens linkedin de personnes (déclenchement manuel du scrapping au click sur la fiche contact)

Le volume sera donc limité et dépendra du nombre de user à utiliser cette fonctionnalité.
Ceci étant dis je me demande la procédure pour évité d’être banni par google (ou autre moteur de recherche).

La requête serait sur le nom + prénom + linkedin et récupérer le premier résultat.

Est-ce une mission impossible ? Dois je m’armer d’une batterie de VPN (ou autre).

Dois je consulter un expert en scrapping ?

Je suis preneur de tout conseils :wink:

Dois je prévoir une batterie de VPN

1 « J'aime »

Hello @Jor1s,

Pour scraper les résultats de google le mieux est de passer par un outil qui gère la rotation d’ip. De cette manière, dès que google comprend que tu es fait ça depuis un bot, tu changes d’ip et ça repart pour un tour ^^

Plusieurs outils font ça sur le marché aujourd’hui. De notre côté on utilise ScraperAPI, ça marche plutôt bien pour Google.

Y a Brightdata également, pour t’en citer un autre (y a une palanqué à vrai dire).

C’est pas violent à intégrer, et après ils gèrent le reste ^^

Une autre option consiste à utiliser une API toute faite qui fait ça pour toi, tu peux en trouver un certain nombre sur RapidAPI.

Suivant le volume que tu cherches, ça peut être rapidement cher ! Mais pour bootstrapper la feature ça peut être une bonne option, car tu t’embêtes pas à intégrer un outil tierce puis à parser le HTML (tu t’évite le scrapping en gros)

1 « J'aime »

Merci pour ta réponse complète.

Je vais regarder ScraperAPI.

Hello @Jor1s, je viens de t’envoyer un mp! Je dev depuis quelques jours un endpoint pour faire du google dorking en API.

1 « J'aime »

Le feature de scraping serp de Brightdata (Luminati) ou Oxylabs.

1 « J'aime »

Merci je vais également regarder :slight_smile:

Je valide scraperapi qui marche très bien pour du scraping google et qui n’est pas cher.

Ça prend cependant +10 secondes par requête, mais tu peux faire des threads en parallèles :ok_hand:

1 « J'aime »

Merci pour votre retour.
@Camille est ce que Oxylabs et Luminati on un meilleur taux de réponses ? Que justifie la différence de tarif entre ces deux services ?

Oxylabs est dans une mauvaise situation en ce moment. A prendre avec précaution.

Je cherche a scrapper le linkedin de personne

Pour essayer d’avoir des bon résultats (en cas d’homonyme), quelle type de requêtes utiliseriez vous ??

Hello,

Une requête du type {Prénom} {Nom} {Société} site:linkedin.com/in devrait fonctionner sur les homonymes si tu connais le nom de la société :slight_smile:

2 « J'aime »

J’utilise scaleserp ou serpapi ça marche parfaitement

Hello Jor1s,

Comme dit ClementAubry, le mieux dans ton cas est de passer par une requête du type {prénom} {nom} {société} site:linkedin.com plus dbl check q {prénom} {nom} soient présents dans le titre du lien (tu ne veux pas remonter un résultat hors sujet… perso j’ajoute aussi un match sur {société} mais optionnel et partie car certains résultats ne le remontent pas e.g. du fait du nombre de caractères élevé du {prénom}, {nom} ou de la headline).

Je suis un des co-fond. de Dashblock que nous avons créé pour donner ce type de super pouvoir aux growth et autres profils tech-savvy qui ne codent pas: c’est une automation super simple à faire et pour laquelle tu aura une API à dispo immédiatement. N’hésites pas à me contacter si tu souhaites qu’on la mette en place en 30 minutes ensemble aujourd’hui ou d’ici la fin de semaine :wink:

1 « J'aime »

Sur ce sujet, on a une certaine expérience du fait que notre outil utilise plusieurs moteurs de recherches web depuis 2019.
Ce que je peux te dire sur la recherche d’individus sur Google : il y a beaucoup de faux positifs qui peuvent ressortir et il y a pas mal de post-traitements qui doivent être effectués pour s’assurer de la pertinence du profil retenu (il faut faire des correlations, mais je peux pas entrer dans le sujet).
Le moteur Bing est plus pertinent car il ressort les données plus proprement. Cependant, des données manquantes sont présentes chez Google et d’autres, plus spécialisés.
Ce qu’il faut retenir, c’est qu’il faut cumuler les moteurs et surtout faire du post-traitement, pour avoir quelque chose de super clean.

1 « J'aime »

Merci Mihai pour ton feedback. Est ce qu’UBIMAP propose une api ?

Avec plaisir ^^
Dès qu’on aura achevé notre transition vers le Cloud, on pourra proposer une API REST.

Je relance le sujet car mes besoin ont évolués.
J’aimerais au travers de mon CRM proposer à mes clients un outils du type prospectin de lusha ou sales nav de linkedin

En clair :

  1. les utilisateurs rentres différents filtres ou mots clés (par exemple le job position, taille entreprise, pays, langue etc…)
  2. un scrapper va scrapper google ou sales nav basé sur ces critères
  3. j’enrichirais les données avec dropcontact et kaspr

Je me suis déjà entretenu avec @Mihai qui aurait une solution dans les semaines à venir mais je demande au cas ou si quelqu’un aurait une autre suggestion.

Merci d’avance

Salut @Jor1s oui mais pas avant cet été! J’ai un endpoint API en cascade qui fait Google+LK.

Bonjour JBS

Comment vas-tu ?

Je cherche une solution simple et efficace pour scraper les résultats d’une recherche google. par exemple : site:linkedin.com/in + directeur des ventes + « @orange.fr » OR « @gmail.com »

je m’essaie à ton Site ScaleSerp mais j’avoue je ne suis pas brillant. Si tu penses avoir quelques minutes pour m’aider par téléphone, ça serait avec plaisir. Merci Louis

Pour scraper Google sans encombre, y a un super deal actuellement en lifetime : SpaceSerp - Powerful SERP API | AppSumo
Ca marche très bien, plus de soucis de proxies grâce à ça.

4 « J'aime »