Bonjour à tous,
Je cherche à scraper tous les résultats sur la query google suivante : « site:*.byclickeat.fr ».
Malheureusement je n’arrive qu’à faire afficher les 10 premières pages et à scrape (avec un script Python) seulement ceux là alors que Google m’indique 1,460 résultats.
Est-ce que vous avez une solution ?
Merci à vous pour votre aide
Salut, les 1 640 résultats que Google t’affiche sont une estimation (parfois proche, parfois très éloignée du résultat réel). Il me semble que tu dois aller à la dernière page pour obtenir le résultat réel sans ce que Google considère être des « entrées très similaires ». Tu peux relancer une recherche en incluant les « entrées très similaires ». Je te montre un exemple avec ta recherche.
Étape 1 : On lance ta recherche initiale. Google nous informe qu’il a trouvé environ 1 640 résultats.
Étape 2 : On se rend à la dernière page de résultats. Ici, il nous informe qu’il a retourné non pas 1 640 résultats mais seulement 102. En effet, avec 10 résultats par page et 2 résultats sur la page 11, on a en effet 10x10+2 soit 102 résultats. Il faut cependant remarquer les deux phrases en italique à la suite du dernier résultat retourné. On clique alors sur le lien « relancer la recherche pour inclure les résultats omis ».
Étape 3 : En suivant ce lien, on retombe sur une page de résultats de recherche nous indiquant encore une fois « environ 1640 résultats ».
Étape 4 : Si l’on se rend à la dernière page (qui est cette fois la page numéro 32), Google nous informe qu’il y a 318 résultats (très loin de l’estimation de 1 640 résultats).
Pour te faciliter la tâche, tu peux aussi afficher non pas 10 résultats par page mais 100, en te rendant ici https://www.google.com/preferences
Pour de plus amples informations : I can't see all search results, there are less results than google thinks? - Google Search Community
Pour ton scraping, une des solutions serait d’afficher 100 résultats par page au lieu des 10 initiaux. Cela te fait 10x moins de pages à crawler. Ensuite tu itères sur chaque pages de résultats et tu y scrapes ce qui t’intéresse. N’ayant pas pour habitude de scraper les pages de résultats Google il y a peut-être d’autres techniques plus efficientes. Une recherche Google « SERP scraping » devrait te filer quelques astuces.
3 « J'aime »
Je te suis extrêmement reconnaissant pour tes explications claires et concises. J’en profite pour te demander si tu aurais une autre suggestion pour identifier tous les sites qui référencent byclickeat.fr. Mon objectif est de trouver/scraper le plus grand nombre de clients potentiels qui utilisent cette solution !
Merci encore @LaGruge !
Salut, si tu recherches les sites utilisant le service Click-eat, tu peux lancer une recherche Google " inurl:byclickeat ". Comme écrit précédemment, pense à aller à la dernière page des résultats puis à cliquer sur « relancer la recherche pour inclure les résultats omis » sinon Google ne t’affichera pas la liste des sites référencés (300 de mémoire).
Je t’en ai extrait 359 via un scan de sous-domaine. Je te laisse le soin de vérifier s’il y a des doublons avec les résultats de la requête Google. Le lien est ici Pastebin - Restaurants Click-Eat . Le mot de passe pour accéder au fichier est « growthhacking ».
1 « J'aime »