Scraper résultat sur google

Hello à tous

Mon équipe de dev développe depuis plusieurs mois un CRM que nous allons commercialiser rapidement.
Nous souhaiterions, afin de terminer une fonctionnalité, scrapper google pour récupérer les liens linkedin de personnes (déclenchement manuel du scrapping au click sur la fiche contact)

Le volume sera donc limité et dépendra du nombre de user à utiliser cette fonctionnalité.
Ceci étant dis je me demande la procédure pour évité d’être banni par google (ou autre moteur de recherche).

La requête serait sur le nom + prénom + linkedin et récupérer le premier résultat.

Est-ce une mission impossible ? Dois je m’armer d’une batterie de VPN (ou autre).

Dois je consulter un expert en scrapping ?

Je suis preneur de tout conseils :wink:

Dois je prévoir une batterie de VPN

Hello @Jor1s,

Pour scraper les résultats de google le mieux est de passer par un outil qui gère la rotation d’ip. De cette manière, dès que google comprend que tu es fait ça depuis un bot, tu changes d’ip et ça repart pour un tour ^^

Plusieurs outils font ça sur le marché aujourd’hui. De notre côté on utilise ScraperAPI, ça marche plutôt bien pour Google.

Y a Brightdata également, pour t’en citer un autre (y a une palanqué à vrai dire).

C’est pas violent à intégrer, et après ils gèrent le reste ^^

Une autre option consiste à utiliser une API toute faite qui fait ça pour toi, tu peux en trouver un certain nombre sur RapidAPI.

Suivant le volume que tu cherches, ça peut être rapidement cher ! Mais pour bootstrapper la feature ça peut être une bonne option, car tu t’embêtes pas à intégrer un outil tierce puis à parser le HTML (tu t’évite le scrapping en gros)

Merci pour ta réponse complète.

Je vais regarder ScraperAPI.

Hello @Jor1s, je viens de t’envoyer un mp! Je dev depuis quelques jours un endpoint pour faire du google dorking en API.

Le feature de scraping serp de Brightdata (Luminati) ou Oxylabs.

1 « J'aime »

Merci je vais également regarder :slight_smile:

Je valide scraperapi qui marche très bien pour du scraping google et qui n’est pas cher.

Ça prend cependant +10 secondes par requête, mais tu peux faire des threads en parallèles :ok_hand:

1 « J'aime »

Merci pour votre retour.
@camillebesse est ce que Oxylabs et Luminati on un meilleur taux de réponses ? Que justifie la différence de tarif entre ces deux services ?

Oxylabs est dans une mauvaise situation en ce moment. A prendre avec précaution.

Je cherche a scrapper le linkedin de personne

Pour essayer d’avoir des bon résultats (en cas d’homonyme), quelle type de requêtes utiliseriez vous ??

Hello,

Une requête du type {Prénom} {Nom} {Société} site:linkedin.com/in devrait fonctionner sur les homonymes si tu connais le nom de la société :slight_smile:

1 « J'aime »

J’utilise scaleserp ou serpapi ça marche parfaitement

Hello Jor1s,

Comme dit ClementAubry, le mieux dans ton cas est de passer par une requête du type {prénom} {nom} {société} site:linkedin.com plus dbl check q {prénom} {nom} soient présents dans le titre du lien (tu ne veux pas remonter un résultat hors sujet… perso j’ajoute aussi un match sur {société} mais optionnel et partie car certains résultats ne le remontent pas e.g. du fait du nombre de caractères élevé du {prénom}, {nom} ou de la headline).

Je suis un des co-fond. de Dashblock que nous avons créé pour donner ce type de super pouvoir aux growth et autres profils tech-savvy qui ne codent pas: c’est une automation super simple à faire et pour laquelle tu aura une API à dispo immédiatement. N’hésites pas à me contacter si tu souhaites qu’on la mette en place en 30 minutes ensemble aujourd’hui ou d’ici la fin de semaine :wink:

Sur ce sujet, on a une certaine expérience du fait que notre outil utilise plusieurs moteurs de recherches web depuis 2019.
Ce que je peux te dire sur la recherche d’individus sur Google : il y a beaucoup de faux positifs qui peuvent ressortir et il y a pas mal de post-traitements qui doivent être effectués pour s’assurer de la pertinence du profil retenu (il faut faire des correlations, mais je peux pas entrer dans le sujet).
Le moteur Bing est plus pertinent car il ressort les données plus proprement. Cependant, des données manquantes sont présentes chez Google et d’autres, plus spécialisés.
Ce qu’il faut retenir, c’est qu’il faut cumuler les moteurs et surtout faire du post-traitement, pour avoir quelque chose de super clean.

1 « J'aime »

Merci Mihai pour ton feedback. Est ce qu’UBIMAP propose une api ?

Avec plaisir ^^
Dès qu’on aura achevé notre transition vers le Cloud, on pourra proposer une API REST.