Comment Faire du Scraping sur le Site Pappers ?

Salut L’équipe

Contexte : Doit scraper 715 résultats sur le site Pappers apparaissant sur 20 pages

Problème : Seul la première page apparaît dans le fichier CSV

Objectif : Avoir un fichier avec tout les résultats contenant Nom Entreprises / Activité / Code APE / Nom du dirigeant / Date de création / Chiffre D’affaire/ Adresse / Email / Site internet / Téléphone

Question : Quels sont les outils et les methodes qui pourraient me permettre de scraper pappers en toute sérénité ?

Merci d’avance pour vos réponses

Tcho :slight_smile:

Si vous avez essayé octoparse ?
Il ne semble pas une tâche difficile

1 « J'aime »

T’as essayé les importXML? apparement ça fonctionne.: Pappers - Google Spreadsheets

4 « J'aime »

Pourquoi ne pas utiliser leur API?

A priori ça va vous coûter moins de 40€ vu le faible volume!

6 « J'aime »

Un growth Français veut souvent éviter de payer :sneezing_face:

5 « J'aime »

Salut, j’ai une solution comme pappers (pas sortie officiellement encore) je te le fait gracieusement. ou je te file un abonement illimité j’ai 11 millions de sociétés. Dis moi le code naf ou l’activité et les filtres je te le sors ou envoie moi en mp ton mail

1 « J'aime »

Effectivement ça m’intéresse voici le code le code 77.11A / 77.11B / 77.12Z
Dates de création : du 01/09/22 au 08/12/22

tiens le code naf : 77.11B

http://share.cccompany.fr/1ca0f257e4ec
mdp : moustache

par contre j’ai pas la date de création en filtre pour la sélection, il faut tout télécharger ( et regarder la colonne date de creation)
J’inclus le filtre date de création dans 2 semaine, c’est une bonne idée.

Passe en privé j’aurai 10 x de contenu sur mails et tel ce week end ( la v2 a pris quelques retards) je te file un abo gratuit

Hello,

Tu peux utiliser le plugin « webscraper » ( testé et approuvé sur ce site ) ou comme mentionné plus haut " octoparse "

La spécificité avec webscraper est lorsque tu définis ta pagination il faut indiquer l’élément de div associé ( " a.pagination.pagination-image-right " ) car les pages se génèrent dynamiquement.

Très simple d’utilisation en plus !

2 « J'aime »

le proverbe « le temps c’est de l’argent » n’est pas assez reconnu en fr

D’ailleurs, j’ai l’impression que cela se voit au niveau des horaires de boulot FR vs USA.
En FR, restez tard est bon signe (cela veut que qu’on boss bcp)
Aux US, restez tard est mauvais signe (cela veut dire qu’on ne sait pas gérer le tps)

4 « J'aime »

Oui et oui

C’est assez vrai les Américains nous gagnent la plupart du temps sur l’exécution…
Pour seul contre la mesure du résultat pas comme on y parvient.
Peut-être les Français, c’est notre côté artiste bidouille… si fait que nous aimons bien obtenir la satisfaction de comprendre et réaliser par nous-mêmes le « bel ouvrage ».
Pas le plus efficace au sens économique mais satisfaisant.
Des avis ?

Je confirme… a mon sens, que l’école française est exemplaire en ce point qu’on apprend dès les petites classes a comprendre les choses, alors que l’école aux USA, c’est plus porter sur faire les choses.

Du coup, plus grand, un Français adorera bien analyser les choses, et aura plus peur de l’échec que l’américain, qui va lui, foncer et faire les choses, quitte a aller d’échec en échec.

1 « J'aime »

Heelo Kevin

Je découvre ton blog scrapping avec intérêt, meême si je ne comprends pas tout du service que tu proposes :slight_smile:
Bon je me soigne pour essayer de comprendre
Renaud

Si le temps passé ne rentre pas en considération, autant utiliser les Api de data.gouv et de l’inpi, toutes les données qu’ils proposent sont dessus. Par contre ils offrent une valeur ajoutée au niveau consolidation / organisation des données.

Bonsoir, Avec l’extension Instant Data Scraper sur navigateur chrome , tu as possibilité de récupérer la données avec pagination donc sur tes 20 pages. Pappers limite a 20 pages mais si tu segmente bien ta recherche à chaque fois tu peux récupérer ce dont tu auras besoin dans l’ensemble.

P.S l’outil est gratuit . Enjoy

avec plaisir pour tester ta solution !
bon réveillon

Hello J’ai un soucis lorsque j’utilise webscraper. Malgré la mise en place de l’étape de pagination seule la 1ère page est scrapée. J’ai appliqué la même méthode que j’applique à chacune de mes utilisations de webscraper mais ici sur Pappers ça ne fonctionne pas. Aurais-tu une solution ?
Thanks :slight_smile:

Lorsque tu met la pagination il ne faut pas oublier de mettre en processus précédent "ROOT " ET AUSSI « PAGINATION » dans la section « PARENT SELECTORS »

:slight_smile:

Intéressé par la solution :wink: