Scrapping mails CE

Bonjour,

J’ai essayer de scrapper le site http://www.m.annuaire-comite-entreprise.com/ en utilisant le tutorial d’Ettore Rizza (https://www.youtube.com/watch?v=-cxNhoVufEo). J’arrive à scrapper les noms et les emails, mais malheureusement, le scrapping s’arrêtent en page 1. Je ne comprends pas pourquoi. J’utilise l’extension Chrome Web Scrapper qui est également utilisé dans la vidéo.

Quelqu’un aurait-il rencontrer le même problème ?

Merci d’avance,

Hello,

Afin que la communauté puisse t’aider au mieux, n’hésites pas à partager l’export JSON de ta config (appelée sitemap dans webscraper), via la fonctionnalité code / texte préformaté de ce forum :slight_smile:

1 J'aime

Hello,

Merci du conseil, voici l’export JSON de la config :

{"_id":"scrapping-ce","startUrl":["http://m.annuaire-comite-entreprise.com/departement-paris.html"],"selectors":[{"id":"liens","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"p a","multiple":true,"delay":0},{"id":"nom","type":"SelectorText","parentSelectors":["liens"],"selector":"strong","multiple":false,"regex":"","delay":0},{"id":"email","type":"SelectorText","parentSelectors":["liens"],"selector":"center a.ui-link","multiple":false,"regex":"","delay":0},{"id":"pagination","type":"SelectorLink","parentSelectors":["_root","pagination"],"selector":"#pages > div.pagination a:nth-of-type(1)","multiple":false,"delay":0}]}

Merci d’avance pour votre aide !!

Très bonne journée à tous,

Je suis ce fil car ai le même souci

Hello à tous,

Je me permets de rebondir pour savoir si quelqu’un connaitrait la solution à ce problème ?

Merci d’avance,

Très bonne journée à tous,

Il y a deux problèmes que j’ai pu identifer dans ta configuration:

Tout d’abord, l’action de gestion de la pagination doit TOUJOURS être le premier sélecteur que tu configures. Si on l’écrit après, le bot sera incapable de cliquer sur le bouton page suivante. Ceci est un bug causé directement par le fonctionnement de Web Scraper.

Du coup, à cause de ça:

Mais il y a un autre problème, ton sélecteur CSS pour le bouton page suivante est faux. Actuellement tu dis au robot de ne cliquer que sur le premier lien de pagination:

Or le premier bouton de pagination n’est pas toujours le bouton de pagination, en page 2 il devient le bouton page suivante…

Solution

D’un point de vue algorithmie, il ne faut pas dire au bot de cliquer sur le premier bouton de pagination rencontré, mais plutôt sur l’avant dernier bouton, qui lui sera toujours le bouton « page suivante ».

#pages>div.pagination>a:nth-last-child(2)
6 J'aimes

Génial ça fonctionne !

Merci beaucoup pour ton aide très précieuse !

2 J'aimes

2 J'aimes

Mon message n’était peut être pas clair… Je voulais savoir si vous aviez exploité le fichier constitué à partir du site http://www.m.annuaire-comite-entreprise.com, autrement dit, est-ce que les e-mails obtenus sont toujours d’actualité ?

Bon après midi :slight_smile:

Je n’ai pas encore fait un état des lieux à ce niveau la non !

1 J'aime