Acceder à toutes les pages de recherche Google

#1

Bonjour,

Je recherche à scrapper tous les freelance sur linkedin à Paris. Après la recherche google classique, je tombe sur 11.000 résultats. Même avec 100 résultats par page, google ne propose que 4/5 pages de résultats.

Qqn saurait comment accéder à tous les résultats?

merci d’avance

0 Likes

#2

Bonjour @Luc009,

Malheureusement Linkedin (et ces c***** de Microsoft, qui tiennent la baraque derrière) empêchent l’affichage des résultats de recherche après 100 pages :

https://www.linkedin.com/search/results/people/?company=&facetGeoRegion=%5B%22fr%3A5227%22%5D&firstName=&keywords=freelance&lastName=&origin=FACETED_SEARCH&page=101&school=&title=

Impossible donc de collecter les données passé la page 100, soit environ 1200 profils, et de même pour Google, où tu n’auras pas de résultat passé la page 5.

Il faut donc segmenter les recherches suffisamment finement (idéalement dans ton cas, 11 groupes de 1000), et ensuite collecter ces données.

0 Likes

#3

La commande “insite:” n’existe pas sur Google, il doit s’agir de la commande “site:” et si c’est le cas il faut mettre le tld sinon ça ne fonctionne pas.

Pour les villes->

site:linkedin.com/in/ freelance Paris
site:linkedin.com/in/ freelance Lyon

ou encore avec l’ensemble des prénoms FR ->

site:linkedin.com/in/ freelance Thomas
site:linkedin.com/in/ freelance Julien

On fait le maximum de villes et le maximum de prénoms FR voire aussi les noms patronymiques FR, on met ça dans Scrapebox puis on dédoublonne les urls scrappées.

2 Likes

#4

@Karni, effectivement coquille de ma part, c’est bien ‘site:’.

Et merci de l’astuce, directement depuis Google, c’est génial…!

0 Likes

#5

bonjour et merci pour les réponses

je faisais en fait référence à cette commande sur google :

-intitle:“profiles” -inurl:“dir/” site:linkedin.com/in/ OR site:linkedin.com/pub/ “freelance” “informatique” “Paris” "@gmail.com" OR "@hotmail.fr" OR "@hotmail.com" OR "@yahoo.fr" OR "@laposte.net" OR "@wanadoo.fr" OR "@live.fr" OR "@outlook.fr" OR "@outlook.com" OR "@free.fr" OR "@orange.fr"

qui permet d’avoir les freelance informatique sur Paris et présent sur Linkedin

Google ressort 114000 résultats mais ne propose que 4/5 pages de 100 résultats soit 430 résultats environ
ma question portait sur google et non sur linkedin
comment accéder à toutes les pages google?

merci d’avance

0 Likes

#6

@Luc009

Tu peux essayer en ajoutant les prénoms FR dans ta query.

Exemple :

“freelance” “informatique” “Paris” “Sebastien” -intitle:“profiles” -inurl:“dir/” site:linkedin.com/in/ OR site:linkedin.com/pub/ "@gmail.com" OR "@hotmail.fr" OR "@hotmail.com" OR "@yahoo.fr" OR "@laposte.net" OR "@wanadoo.fr" OR "@live.fr" OR "@outlook.fr" OR "@outlook.com" OR "@free.fr" OR "@orange.fr"

L’idée est de faire autant de requêtes que de prénoms FR.Pour ça tu peux t’aider de ce fichier afin de construire la liste de tes queries :

Tu peux utiliser un tool comme Footprint Factory ou simplement Excel pour combiner et créer la liste complète des requêtes.Ensuite tu balances ça dans Scrapebox puis tu dédoublonnes les urls.

1 Like

Scraper tous les profils Linkedin
#7

Hello, effectivement il faut segmenter les requêtes Google. (Rien à voir avec la recherche Google) tu peux trouver sur les profils de ANNUAIRE DES AUTOENTREPRENEURS DE FRANCE email et lien Linkedin. Voir aussi les annuaires d’activité libérale avec profils.

0 Likes

#8

merci mais ca dépasse mes compétences informatiques

0 Likes

#9

merci pour l’annuaire mais comment on extrait les emails?

0 Likes

#10

@karni, quel est l’impact du tiret devant inurl, et intitle ?

28

0 Likes

#11

Pour comprendre cette requête, je m’en était sorti avec cette doc, ici : https://arteoconseil.fr/blog/affinez-nos-recherches-google/

0 Likes

#12

le -intitle:“profiles” signifie que Google n’affichera pas les résultats qui contiennent le mot “profiles” dans le title de la page.

le -inurl:“dir/” signifie que Google n’affichera pas les résultats qui contiennent “dir/” dans l’url de la page.

En gros c’est pour diminuer le bruit.

2 Likes

#13

Ok, c’est une mise à l’écart de certains mots… merci à toi ! :crab:

0 Likes

#14

A partir d’ici je ne te suis plus… Comment on récupère scrcapbox (je suis sur ubuntu)
Et après quand on a tous nos liens sur scrapbox on peut scraper les emails ? D’habitude j’utilise web scraper sur chrome.

0 Likes

#15

Tu peux récupérer scrapebox ici http://www.scrapebox.com/ Version PC ou Mac, du coup soit une VM soit un vps si t’es sous ubuntu.
Peut etre que le plus simple reste de scraper les serps directement en extrayant les emails avec des regex depuis les serps apres je ne connais pas web scraper je ne sais pas si tu peux faire ça avec

0 Likes

Team : CamilleBriceJulienVivianBorisXavierSteven.