Question scraping annuaire avec Parsehub


#1

Bonjour à tous !

je suis confronté à un problème de pagination avec Parsehub.
je veux scrapper cette annuaire là : http://annuaire.leperon.fr/search/section/

  • la sélection de la catégorie et de la localisation pas de problème
  • Aller chercher sur chaque résultat la fiche d’information et scrapper les données sur cette fiche pas de problème

Par contre ou cela se complique, et le fait que je souhaite changer de page.
En effet que je passe pas le “next” à côté de 1/… ou par le sélecteur de page en simulant un clic de sélection de page, et un clic “go” il ne me charge pas la nouvlellle et fait planter la suite du scrapping.

Je remercie d’avance tout ceux qui pourront m’apporter leur réconfort et leur aide :slight_smile:


#2

Tu veux dire qu’en sélectionnant le bouton “next” puis “clic >go to main template” les pages suivantes ne s’affichent pas ?


#3

A tous les coups Parsehub ne sait pas cliquer sur / gérer les boutons et liens dont l’action est déclenchée par Javascript. Il s’attend certainement à avoir des liens standards (balise “a” avec attribut “href”).

Je ne pense pas que Parsehub puisse faire le job, il faut passer par une techno “headless browser”, en résumé il faut être dans un contexte navigateur web pour gérer ce cas.


#4

Hello Olivier,

Sur le site en question la pagination est tricky. Ce n’est pas une simple url mais un formulaire qui est posté avec un paramètre de page en argument comme on peut le voir sur la photo ci_dessous.
Il faut donc faire un script avec request dans le meilleur des cas. Ou alors avec selenium mais s’il y a beaucoup de données ça ne sera pas efficace.
Au plaisir d’en discuter.
Simon


#5

oui je pense en effet que malheureusement, je n’ai pas de choix


#6

oui c’est ça !


#7

oui effectivement il y a 196 pages avec 20 fiches par pages donc je pense assez compliqué.

Pour l’instant j’ai scrapper le site et récupérer les URL des fiches clients pour pouvoir aller chercher les informations dont j’ai besoin.

En tous cas merci à tous de vos réponses


#8

Pour finir cette discussion, et parce que, cela pourra peut être aider d’autre personne, la finalité du process a été la suivante :
1 - Scrapping du site complet
2 - j’ai fait un extract de toutes les URLS des fiches clients
3 - Dans Parsehub, import du fichier CSV
4 - mise en place de la routine qui permet d’aller pour chaque URL chercher les renseignements que j’avais besoin


#9

Top Olivier, ça pourrait faire l’objet d’un petit tuto de ta part, si jamais tu as le temps.

Pour ceux comme moi qui ne font que coder des scrapers personnalisés, on pêche énormément sur l’utilisation de tools tels que Parsehub, alors que ça peut être carrément pratique parfois !


#10

Avec plaisir, j’essaye de faire cela la semaine prochaine


#11

@ScrapingExpert
Si je comprend bien " j’ai fait un extract de toutes les URLS des fiches clients " il a manuellement récupéré chaque url dans un CSV.

N’est-ce pas @Olivier_Feldman ?

Je pense que lorsqu’il s’agit de quelques pages c’est rentable de le faire a la main et de brancher ça avec ParseHub / import.io etc, mais à partir d’un moment c’est plus rentable de faire un script !


#12

Exact, en fait c’est la problématique que j’évoque souvent lorsque j’interviens sur des initiations:

La difficulté, et l’un des prérequis les plus important, c’est de savoir où placer le curseur lorsqu’on compte s’atteler à l’automatisation d’un process, curseur en terme de gain de temps et d’argent. C’est à dire: est-ce que le temps passé à dev un script permettra un gain de temps significatif ou est-ce que ça sera plus long que de récupérer les infos à la main ?

A priori, c’est facile à déterminer si il est question de quelques dizaines de pages, voir une centaine. Mais le danger vient souvent du fait qu’on ne sache pas, à priori, combien d’info seront complètes au sein de la totalité des pages qu’on vise. On peut par exemple voir qu’il y a 1 000 pages à traiter, l’automatisation semble rentable, et au final se retrouve avec 50 adresses emails au total, car il y a 950 pages sans cette info…

D’où la nécessité d’une analyse statistique manuelle, pour éviter ces problèmes.


#13

@ksahin non j’ai scrappé le site avec pour ma part SEO FROG et isolé toutes les URLs des fiches de l’annuaire dans Excel


#14

@Olivier_Feldman d’accord, bien joué :slight_smile:

@ScrapingExpert Tu auras toujours un problème de variance statistiques ! Recemment j’ai scrappé 50 000 sites pour récupérer des addresses emails.
J’en ai regardé 100 a la main, j’ai trouvé 4 addresses soit 4%
J’ai fait tourner un script sur 1000 sites, et j’en ai trouvé 150 soit 15%.

Au final le script a tourné sur les 50 000, et sur 30% j’avais des addresses… Tu vois ou je veux en venir :slight_smile:

Si je m’étais arrêté au 100 premiers et ces 4 pauvres addresses j’aurai pu me dire que ça n’en valait pas la peine !


#15

Là c’est encore différent, car il ne s’agit pas de pages similaires au sein de la même source, mais de sites web tous différents les uns des autres, l’analyse statistique n’est plus tellement valable dans ce cas je le reconnais.


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr