scraper le site teleadreson

Bonjour,

Je cherche a scraper les sociétés françaises sur ce site : https://teleadreson.com/ avec webscraper, mais je n’y arrive pas :thinking: , est-ce que quelqu’un aurait la solution ?

Merci

Geoff

Data miner :stuck_out_tongue_winking_eye:

Bonjour,

merci pour l’info avec dataminer, mais j’arrive également a récupérer ces info avec webscraper, ce que je n’arrive pas à faire est d’entrer dans chacun des 20 liens par page (sachant que je veux scraper tout le site des sociétés en France), et récupérer les infos disponibles par société, c’est a dire le téléphone et surtout l’email.

Merci de me dire si quelqu’un trouve une solution ?

Geoff

Hello,
Peux-tu nous partager ta configuration actuelle (aka sitemap json dans les termes de WebScraper) ?

Salut,

En fait ma config webscraper est proche de 0, car quand je veux sélectionner un lien sur la page (sur cette page par exemple : https://teleadreson.com/.country%20FR%20.rec%2041/), pour aller sur la page de la société, je ne peux pas sélectionner les liens :

Je pense que je pourrais m’en sortir si j’arrivais à collecter les 20 url de la page, :



Merci

Check ce tuto qui explique bien la pagination avec webscraper :slight_smile:

Merci pour ce tuto, mais je n’y arrive toujours pas, si quelqu’un a une solution je suis preneur :wink: !!

Merci

Effectivement, les liens vers les pages des sociétés ne sont pas des liens standards (balise de type a avec attribut href), il s’agit d’une autre balise dont le comportement est géré par JavaScript lorsqu’un événement de type « on click » y est détecté:

Or comme on peut voir en fouillant dans leur doc:

Link selector is used for link selection and website navigation. If you use Link selector without any child selectors then it will extract the link and the href attribute of the link. If you add child selectors to Link selector then these child selectors will be used in the page that this link was leading to. If you are selecting multiple links then check multiple property.

Note! Link selector works only with <a> tags with href attribute.

En résumé, le « Selector link » ne fonctionnera pas dans ce cas.

Si tu veux éviter de galérer, tu peux en revanche procéder à l’extraction des attributs onclick des balises tr, en extraire l’url relative pour te constituer une liste des liens des pages entreprises, et ensuite faire un scenario webscraper qui part de cette liste des liens pour extraire les infos sur chacune des pages.

Hello,

De mon côté, j’ai procédé comme suit :

  • Chargement de tous les éléments de la recherche, l’infinite loader étant disponible uniquement sur la version mobile

  • Enregistrer sous de la page web une fois tous les éléments chargés

  • Regex de tous les liens .html avec Atom

  • Import du sitemap dans WebScrapper

Attention toutefois si vous scrappez trop rapidement vous risquez d’obtenir une erreur « Server overload », 5 000 ms semble raisonnable.

++

1 J'aime