Scrapping mails CE

Bonjour,

J’ai essayer de scrapper le site http://www.m.annuaire-comite-entreprise.com/ en utilisant le tutorial d’Ettore Rizza (https://www.youtube.com/watch?v=-cxNhoVufEo). J’arrive à scrapper les noms et les emails, mais malheureusement, le scrapping s’arrêtent en page 1. Je ne comprends pas pourquoi. J’utilise l’extension Chrome Web Scrapper qui est également utilisé dans la vidéo.

Quelqu’un aurait-il rencontrer le même problème ?

Merci d’avance,

Hello,

Afin que la communauté puisse t’aider au mieux, n’hésites pas à partager l’export JSON de ta config (appelée sitemap dans webscraper), via la fonctionnalité code / texte préformaté de ce forum :slight_smile:

1 « J'aime »

Hello,

Merci du conseil, voici l’export JSON de la config :

{"_id":"scrapping-ce","startUrl":["http://m.annuaire-comite-entreprise.com/departement-paris.html"],"selectors":[{"id":"liens","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"p a","multiple":true,"delay":0},{"id":"nom","type":"SelectorText","parentSelectors":["liens"],"selector":"strong","multiple":false,"regex":"","delay":0},{"id":"email","type":"SelectorText","parentSelectors":["liens"],"selector":"center a.ui-link","multiple":false,"regex":"","delay":0},{"id":"pagination","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"#pages > div.pagination a:nth-of-type(1)","multiple":false,"delay":0}]}

Merci d’avance pour votre aide !!

Très bonne journée à tous,

Je suis ce fil car ai le même souci

Hello à tous,

Je me permets de rebondir pour savoir si quelqu’un connaitrait la solution à ce problème ?

Merci d’avance,

Très bonne journée à tous,

Il y a deux problèmes que j’ai pu identifer dans ta configuration:

Tout d’abord, l’action de gestion de la pagination doit TOUJOURS être le premier sélecteur que tu configures. Si on l’écrit après, le bot sera incapable de cliquer sur le bouton page suivante. Ceci est un bug causé directement par le fonctionnement de Web Scraper.

Du coup, à cause de ça:

Mais il y a un autre problème, ton sélecteur CSS pour le bouton page suivante est faux. Actuellement tu dis au robot de ne cliquer que sur le premier lien de pagination:

Or le premier bouton de pagination n’est pas toujours le bouton de pagination, en page 2 il devient le bouton page suivante…

Solution

D’un point de vue algorithmie, il ne faut pas dire au bot de cliquer sur le premier bouton de pagination rencontré, mais plutôt sur l’avant dernier bouton, qui lui sera toujours le bouton « page suivante ».

#pages>div.pagination>a:nth-last-child(2)
7 « J'aime »

Génial ça fonctionne !

Merci beaucoup pour ton aide très précieuse !

2 « J'aime »

2 « J'aime »

Mon message n’était peut être pas clair… Je voulais savoir si vous aviez exploité le fichier constitué à partir du site http://www.m.annuaire-comite-entreprise.com, autrement dit, est-ce que les e-mails obtenus sont toujours d’actualité ?

Bon après midi :slight_smile:

Je n’ai pas encore fait un état des lieux à ce niveau la non !

1 « J'aime »

Bonjour à tous,

Je me permets de vous relancer sur le sujet.

J’ai bien avancé sur la mission, je suis à environ 10k adresses scrapées. Mais le problème, c’est que parfois WebScraper scrape 20 pages, et parfois, il s’arrête au moins d’une page. Du coup le scraping devient très chronophage.

Sauriez-vous à quoi cela est dû ? A noté que j’ai augmenter le reload time à 4000 mais rien n’y change ;.

Voici le script :

`

{"_id":"scrapping-ce","startUrl":["http://m.annuaire-comite-entreprise.com/departement-herault.html"],"selectors":[{"id":"pagination","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"#pages > div.pagination a:nth-last-child(2)","multiple":false,"delay":0},{"id":"liens","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"p a","multiple":true,"delay":0},{"id":"Nom","type":"SelectorText","parentSelectors":["liens"],"selector":"strong","multiple":false,"regex":"","delay":0},{"id":"mail","type":"SelectorText","parentSelectors":["liens"],"selector":"center a.ui-link","multiple":false,"regex":"","delay":0}]}

Merci d’avance pour votre aide !

`

Hello @ScrapingExpert, comment tu es arrivé à choper le bon sélecteur pour la pagination ? Je passe par la console Chrome mais je ne trouve que celui par défaut. Merci :slight_smile:

Voir réponse déja donnée: