Hello les GH !
J’ai besoin pour un projet growth de scraper les 24 000 urls pour la recherche suivante sur google : « site:http://la-conjugaison.nouvelobs.com/du/verbe/ »
J’essaye avec artoo.js mais au bout d’une vingtaine de page il n’y a plus de résultats…
Une idée ? (je code en PHP, javascript basique et ruby)
Merci !
Hello,
Ce qu’il faut savoir avec Google, c’est que c’est totalement aléatoire:
- Ils limites volontairement le nombre de pages de résultats que tu peux atteindre
- le nombre de résultats affiché (exemple ici « Environ 24 700 résultats ») n’est pas du tout le nombre de résultats qu’ils te permettront de voir via leurs pages de résultats
- le nombre de pages de résultats qu’on peut voir change, sans vraiment suivre de règle précise (j’ai essayé en navigation privée toute à l’heure, je n’ai pu voir que 3 pages, le coup d’après 18 pages)
Le mieux à faire c’est de scraper directement à la source le site la-conjugaison du nouvelobs…
Yes, mais du coup comment je peux faire pour que mon scraper trouve toutes les pages que je recherche avec le patern "http://la-conjugaison.nouvelobs.com/du/verbe/ x " ?
C’est bon ça, merci Camille je vais réussir à faire ce que je veux à partir de leur page Je vous tiens au courant quand ça sort !
Où encore : tu commences avec une liste de verbe, puis à partir de chaque page (exemple: être conjugaison du verbe être - conjuguer être), tu chopes tous les liens de verbe en bas de la page, dans les sections « Synonyme du verbe [verbe] » et « Quelques verbes au hasard », et voir aussi le lien « Plus de synonymes [verbe] »
En suivant tous ces liens, tu finiras par obtenir l’intégralité
1 « J'aime »
C’était un peu bourrin de passer par Google Search
Je confirme ce qu’ont pu te dire @Camille ou @ScrapingExpert. Passe soit par la liste de verbe soit page par page en crawlant l’ensemble des liens. Tu devrais pas avoir trop de mal à obtenir ce que tu veux