Besoin d'aide, problème avec scrapebox pour scraper un site

Jmad · Juillet 16, 2016, 6:48

Bonjour à tous,

Je rencontre quelques problèmes avec scrapebox.

a) J’essaie de scraper l’annuaire pages jaunes. L’idée c’est de se retrouver sur la page d’une société et d’utiliser ensuite l’extracteur de lien pour scraper les liens externes sur cette page et de trouver le site de l’entreprise. Une fois, sur ce site, extraire tous les liens internes, et donc la page contact où se trouve (assez souvent) le mail de l’entreprise.

Mais ça ne marche pas sur pagesjaunes.fr ALORS que ça fonctionne parfaitement sur yellowpages…

b) J’ai eu alors l’idée d’utiliser la structure de l’URL. Les pages pros s’affichent comme ça http://www.pagesjaunes.fr/pros/

Je demande donc à scrapebox de me donner tous les liens qui ont cette structure avec ce footprint inurl:http://www.pagesjaunes.fr/pros/....Le problème ? Scrapebox me propose 550 liens alors que j’ai 2 millions de résultats en tapant ça sur Google…

c) Aussi, j’ai un problème avec les proxys. J’utilise les proxys free fournis par les sources de scrapebox. Je prends garde à n’utiliser que ceux qui passent les deux test anonymes et google. Pour extraire des liens, aucun problème. Pour extraire des mails, par contre, j’ai systématiquement une erreur. Je suis donc obligé de désactiver les proxys et là ça fonctionne.

Merci pour votre aide,

Bon WE

Camille · Juillet 16, 2016, 8:06

Hello,

Une requête Google ne retourne que 1000 résultats max, mais souvent il s’arrête vers 500. D’où tes 550 liens.

Il faut donc faire des requêtes alternatives. Exemples :

site:http://www.pagesjaunes.fr/pros/ « paris »
site:http://www.pagesjaunes.fr/pros/ « lyon »
site:http://www.pagesjaunes.fr/pros/ « nantes »
…

Un site: ou inurl:, c’est très gourmand en proxies. Et il te faut du Google « passed ». Donc pas la peine de tenter avec les sources gratuites de scrapebox, il te faut du proxy privé payant.

Jmad · Juillet 17, 2016, 2:41

Merci beaucoup pour ta réponse complète et rapide.

gregory · Juillet 20, 2016, 10:48

Bonsoir,

ce soir le site de pages jaunes pro ne fonctionne pas bien (il est en beta), mais en lançant une requête sur le site directement (pour moi: http://www.pagesjaunes.fr/recherche/paris-75/kpmg) et en inspectant le code source on voit que le lien vers le site est affiché bêtement:

<a title="Accéder au site Internet de KPMG nouvelle fenêtre" target="_blank" class="pj-lb pj-link" href="http://www.kpmg.fr" data-pjstats="{"idTag":"LVS-STANDARD","pos":2,"produit_publicitaire":{"code":"X_U_U","identifiant":"0001032502860001"},"genreBloc":"1","pjscript":"xt_click({},'C','{%xtn2}','LR_BI::barre_lr::info::voir_lvs','A');"}"><span class="icon icon-internet"></span><span class="value">Site internet</span></a>

Le plus simple serait donc de scraper le contenu de toutes les balises similaires en utilisant une regex et pour éviter de jouer avec des proxys, de changer de user-agent chaque X secondes ou URL récupérée. Tu peux même le faire pour le nom de l’entreprise ou d’autre champs pour avoir un extract plus complet