Problème Scrap avec Web Scraper

Bonjour,

Je n’arrive pas à scraper toutes les infos par entreprise (présentation,3-5 contacts, pages linkedin,…).

https://whoknowsabout.com/company-list.html#tab_all

J’ai essayé avec le plugin Web Scraper mais ça s’arrête à la 15-20eme entreprises.

Des idées, une aide : ce serait super sympa.

Merci !

Jaouad

Hello @Jaouad,

Je viens de faire l’essai avec WebScraper, je n’ai aucun soucis, il me récupère bien les infos de toutes les boîtes dont le nom d’entreprise commence par les lettres de A à Z, et ne s’arrête pas à 15-20 entreprises.

WebScraper est donc ici un bon choix :slight_smile:

Merci pour ta prompte réponse.

Le tableau ne présente pas les infos comme les contacts, les pages linkedin/contact…

Quand tu cliques sur l’entreprise, il y a des infos supplémentaires.

Je ne sais pas s’il faut utiliser le Selector TABLE…

Mon résultat présente dans les deux dernières colonnes des informations issues des pages détails entreprises, celles auxquelles on a accès uniquement en cliquant sur chaque page entreprise: le nom entreprise + son ranking.

Mais pour démontrer que WebScraper fonctionne bien sur toutes les boites et non pas juste 15-20, je me suis limité à juste deux champs de données, j’allais pas faire tout le boulot quand même :slight_smile: :stuck_out_tongue_closed_eyes:

Parfait.

Je te remercie, je m’y remets :wink:

Le début de la configuration sur laquelle se baser pour terminer le travail:

{"_id":"whoknowsabout","startUrl":["https://whoknowsabout.com/company-list.html#tab_all"],"selectors":[{"id":"all-link","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"div.companies-link-row","multiple":true,"delay":"500","clickElementSelector":"li>a[href='#tab_all']","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueText"},{"id":"company","type":"SelectorLink","parentSelectors":["all-link"],"selector":"a","multiple":false,"delay":0},{"id":"company-name","type":"SelectorText","parentSelectors":["company"],"selector":"div#company-companyname","multiple":false,"regex":"","delay":0},{"id":"company-rank","type":"SelectorText","parentSelectors":["company"],"selector":"div#company-overall-rank","multiple":false,"regex":"\\d+","delay":0}]}

En image, voici ce que ça donne pour les divers Selectors configurés au sein de l’outil:

  • 1ère étape: Sélecteur qui permet de cliquer sur le bouton « all » et d’afficher toutes les entreprises (par défaut ce n’est pas le cas)

Config du sélecteur dans l’interface:

Résultat:

  • 2ième étape: Sélecteur qui permet de cliquer sur le lien de chaque page détail entreprise

Config du sélecteur dans l’interface:

image

Résultat:

  • 3ième étape: Sélecteurs qui permettent d’extraire les données désirées au sein de la page détail de chaque entreprise:

1 J'aime

Un Grand Merci Xavier !!

1 J'aime