Jaouad
Novembre 27, 2019, 8:39
1
Bonjour,
Je n’arrive pas à scraper toutes les infos par entreprise (présentation,3-5 contacts, pages linkedin,…).
https://whoknowsabout.com/company-list.html#tab_all
J’ai essayé avec le plugin Web Scraper mais ça s’arrête à la 15-20eme entreprises.
Des idées, une aide : ce serait super sympa.
Merci !
Jaouad
Hello @Jaouad ,
Je viens de faire l’essai avec WebScraper, je n’ai aucun soucis, il me récupère bien les infos de toutes les boîtes dont le nom d’entreprise commence par les lettres de A à Z, et ne s’arrête pas à 15-20 entreprises.
WebScraper est donc ici un bon choix
Jaouad
Novembre 27, 2019, 8:55
3
Merci pour ta prompte réponse.
Le tableau ne présente pas les infos comme les contacts, les pages linkedin/contact…
Quand tu cliques sur l’entreprise, il y a des infos supplémentaires.
Je ne sais pas s’il faut utiliser le Selector TABLE…
Mon résultat présente dans les deux dernières colonnes des informations issues des pages détails entreprises, celles auxquelles on a accès uniquement en cliquant sur chaque page entreprise: le nom entreprise + son ranking.
Mais pour démontrer que WebScraper fonctionne bien sur toutes les boites et non pas juste 15-20, je me suis limité à juste deux champs de données, j’allais pas faire tout le boulot quand même
Jaouad
Novembre 27, 2019, 8:58
5
Parfait.
Je te remercie, je m’y remets
Le début de la configuration sur laquelle se baser pour terminer le travail:
{"_id":"whoknowsabout","startUrl":["https://whoknowsabout.com/company-list.html#tab_all"],"selectors":[{"id":"all-link","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"div.companies-link-row","multiple":true,"delay":"500","clickElementSelector":"li>a[href='#tab_all']","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueText"},{"id":"company","type":"SelectorLink","parentSelectors":["all-link"],"selector":"a","multiple":false,"delay":0},{"id":"company-name","type":"SelectorText","parentSelectors":["company"],"selector":"div#company-companyname","multiple":false,"regex":"","delay":0},{"id":"company-rank","type":"SelectorText","parentSelectors":["company"],"selector":"div#company-overall-rank","multiple":false,"regex":"\\d+","delay":0}]}
En image, voici ce que ça donne pour les divers Selectors configurés au sein de l’outil:
1ère étape: Sélecteur qui permet de cliquer sur le bouton « all » et d’afficher toutes les entreprises (par défaut ce n’est pas le cas)
Config du sélecteur dans l’interface:
Résultat:
2ième étape: Sélecteur qui permet de cliquer sur le lien de chaque page détail entreprise
Config du sélecteur dans l’interface:
Résultat:
3ième étape: Sélecteurs qui permettent d’extraire les données désirées au sein de la page détail de chaque entreprise:
1 « J'aime »