Scrapebox - Scraping limité


#1

Bonjour à tous !

J’utilise Scrapebox pour collecter des résultats Google mais impossible de dépasser les 500/1000 résultats.
Scrapebox s’arrête alors qu’il existe des centaines et des centaines de pages de résultat Google.

J’utilise la configuration de base de Scrapebox et 10 proxys. Une idée ?

Merci à vous


#2

Limite par IP. C’est justement pourquoi Scrapebox est très utilise pour le scraping Google, c’est qu’il a une bonne gestion des proxy.

Si tu n’as pas de budget proxy, essaye le scraping avec bing (possible avec Scrapebox)


#3

Je me débrouille pour segmenter la requête par grande ville ou région ou prénom…ou couleur…selon ton contexte.
Ca multiplie le nombre de requetes et de résultat


#4

Merci Camille pour ta réponse.

Combien pense-tu qu’il faut de proxy pour obtenir des scrap de 20.000 ou 30.000 résultats ?


#6

Ha mais tu n’as qu’un mot clé ?

C’est normal, Google ne ressort que max 100 pages de résultats, il faut varier comme explique justement @alexM. Tu peux utiliser l’outil keyword scraper de scrapebox pour générer de la longue traine à partir d’un ou plusieurs keywords.

C’est quoi ta recherche Google (si pas secret) ? On pourra peut-être t’aider.


#7

Au fait, j’ai aussi la config de base de scrapebox et scrapebox peut me récupérer des 100aines de proxies. Cela se configure.


#8

Oui mais très difficile d’avoir des “Google passed” à partir de la liste des proxy gratuits. Et même si tu arrives à en avoir quelqu’un, ils seront très vite grillés, car utilisés par plusieurs personnes en même temps sur Google.


#9

je crois que ca depend des heures. Le matin, j’en ai plusieurs centaines. Puis ca disparait assez vite et je recommence la “moisson”.

vers 12h30, j’ai récupéré via scrapebox 82 proxies compliant avec google.

Par ailleurs, Bing donne de bons résultats et les contraintes sur les proxies sont moins fortes.


#10

Ma requête est un footprint:
intext:“Site web” AND intext:“Laisser un commentaire Annuler la réponse”

Je vais rajouter des keywords avec ~keywords.

Qu’en pensez-vous?

Merci de votre aide :slight_smile:


#11

Bonsoir,
J’ai plusieurs interprétations de ta requete. Parles tu du footprint en général ou es tu en train de réaliser un footprint pour scrapebox.
Je vais le prendre au 1er sens. Comme c’est une requete super générale, je “pourrai” rajouter le nom des villes dans les keywords ou intitle.
On trouve facilement la liste des 100 plus grandes villes, cela ferait 100 requetes sur scrapebox.

intext:“Site web” AND intext:“Laisser un commentaire Annuler la réponse” AND intext:paris
intext:“Site web” AND intext:“Laisser un commentaire Annuler la réponse” AND intext:lyon
intext:“Site web” AND intext:“Laisser un commentaire Annuler la réponse” AND intext:…


#12

Merci Alex en effet ça va beaucoup mieux avec des centaines de keywords.

A savoir pour les prochaines fois :wink:


#13

sur internet j’ai vu un fichier avec le nom des 36 000 communes françaises.
J’ai utiliser la fonction concatenate sous excel pour générer mes requetes puis j’ai balancé ca sur scrapebox.
Ca geneère beaucoup d’erreurs mais c est par grave


#14

Oui sur le site du gouvernement, on trouve une liste de communes gratuite: https://www.data.gouv.fr/fr/datasets/base-officielle-des-codes-postaux/

Je vais faire ma petite concatenation et j’essaye


#15

Si tu parles de profondeur de résultats sur une même requête, tu ne dépasseras jamais les 1000. C’est une limite absolue sur Google, et il en a toujours été ainsi.

Mais aujourd’hui cette limite est moindre, et variable selon la requête. Je ne sais pas exactement pourquoi, mais probablement que Google considère que personne n’a besoin d’autant de résultats, ou qu’au delà d’un certain nombre, ils sont trop peu pertinents.
Par ailleurs, plus tu vas aller chercher de résultats en profondeur, plus tu prendras de captchas.
De même si tu utilises des opérateurs de recherche, le nombre de requêtes que Google te laissera faire sera restreint.

Perso, je ne me lancerais pas dans le scrap en profondeur de Google. Trop compliqué, trop cher… mort par avance.


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr