Scrapper les url en résultats d'une recherche google (problème de limite)

Hello les growth hackers !

Je me confronte à un problème et j’aimerais avoir votre avis.

Le cas :

Je souhaite récupérer les url de site créer par Super :zap: avec Notion.

Ma requête Google [ site:« *.super.site » -template ] me renvoit un peu plus de 8k résultats.

Problème :
J’utilise webscraper pour scrapper les urls de ces sites. Sauf que Google ne va pas plus loin que 26 pages.

Du coup, je me retrouves avec 260 résultats, et pas les 8k d’annoncés.

Et là, je :exploding_head:

J’ai tenté avec SERPApi. La même (double :exploding_head: :exploding_head:).

Une solution est-elle possible ?

C’est pourquoi je m’en remets à vous.

Je n’ai pas trouvé de réponse dans le forum.

Je me dis que je ne suis pas le premier. Alors est-ce que ce que je souhaite réaliser est possible ? Comment ?

Un grand merci pour votre aide

Hello,

Tu peux essayer de changer l’url dans les pages ?

Exemple pour la requête « facebook login »
L’URL donne ça (https://www.google.com/search?q=facebook+login&ei=XTd2Y6HgBOGbkdUP5PKb-A0&start=130) pour la page 13, il te suffit donc de modifier ce champs ?

Bonne journée !

1 « J'aime »

Tu as regardé ici : Comment trouver tous les sous-domaines de appointy.com ? ?

1 « J'aime »

@Clem_LC je ne te félicite pas tu aurais pu utiliser la fonction IMPORTFROMGOOGLE depuis Google Sheets, accessible une fois installé l’add-on ImportFromweb (autopromo, je sors -->)

En fait Google ne te donne accès qu’à 300 résultats max
Le seul moyen il me semble est de faire varier ta requête pour en obtenirle plus possible

4 « J'aime »

Merci à tous pour vos retours !

Effectivement, faire varier la requête semble être la solution la plus plausible.

Cela s’annonce laborieux. Mais bon, si c’était facile tout le monde le ferait :sweat_smile:

Quelques nouvelles, après une réflexion rapide sur le sujet :

Ce matin j’ai décidé de tenter un POC : extraire les noms de domaine (dans mon cas précis = X pour X.super.site).

et dans un sheets les concatener avec - pour obtenir -X.

Ainsi X est exclue de mes requêtes Google.

Petit problème désormais (qui n’en est pas vraiment un), Google limite ses requêtes à 32 mots.

Bon je vais voir avec mon associé pour le passage à l’échelle.

Un grand merci à vous @Col1 @Camille @Adrien_NDNB ! Vous m’avez redonner l’espoir !

3 « J'aime »

Exacte 300 résultats max tu peux juste essayer de taper des requêtes plus précises

1 « J'aime »

Note que Google va être très sensible sur une requête avec opérateur « site: ». Tu peux rapidement te manger des captchas.
Du coup c’est pas une opération que tu pourrais reproduire en masse depuis 1 seule IP.

3 « J'aime »

oui recupere la liste des sous domaine (https://dnsdumpster.com/) et crawl directement le site avec un crawler type xenu ou screaming frog ca devrait marcher

3 « J'aime »

A le bon vieux Xenu…

Par contre ça ne marchera pas, car il va juste de lien en lien, donc pour ces sous-domaines la il ne les trouveras pas.

Dnsdumpster, très bon, mais faut payer $120 au dessus de 100 sous-domaines. Mais ca peut valoir le coup.

2 « J'aime »

Je te conseille de télécharger la liste des mots français les plus utilisés puis de scraper les résultats de la recherche « site:« *.super.site » +LEMOTS ». Ca devrait t’aider à ratisser assez large et à récolter beaucoup de sites.

Tu vois ce que je veux dire ?

Je l’ai déjà fait pour un client avec des milliers de mots chinois. Je peux le refaire, MP si intéressé :wink:

1 « J'aime »

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.