scraper site

Bonjour

Je cherche une solution simple car je ne suis pas un expert pour scraper le lien suivant

https://ecosystem.lafrenchtech.com/companies.startups/f/employees/anyof_51-200_201-500_501-1000_1001-5000_5001-10000_10001%2B/employees_min/anyof_50/locations/allof_France?companyEmployees=employee_12_months_growth_relative&sort=-employee_12_months_growth_relative

Merci de votre aide

Tu peux faire appel à un expert dans ce cas là ^^

ok c’est trop compliqué avec webscraper?

Non du tout^^

Hello,

Si tu te sens de faire un peu de code, ça fait assez bien en python, notamment avec la librairie BeautifulSoup.

Dans le cas de ce website, il n’y a pas de connexion de demandée (pas de token d’authentification à générer puis rafraichir), les balises contenant l’information sont toujours formatée de la même manière…

C’est un bon cas d’école comme on dit ^^

Ca m’étonnerait pas que tu trouves toutes les infos structurées dans un json au chargement dans la page.

1 J'aime

Ok je vais voir si je me lance

Salut, quelles sont tes connaissances en code ? Quelles sont les informations que tu souhaites collecter ?
En PHP tu peut utiliser la librairie cURL :
-Une fonction avec en paramètre l’URL de la page pour ouvrir une nouvelle session et stocker le résultat dans une variable
-Créer un nouveau XPath Dom object
-Appliquer un query sur l’élément dom voulu
-Stocker cet élément dans un tableau puis afficher le résultat

Hello! On a publié un fichier avec à peu près toutes les boîtes de l’annuaire en question. Ils en annoncent 28000 ou je sais pas combien, mais il y en a genre 20 000 où ils n’ont que le nom et aucun autre point de donnée.

Il se scrape très bien pour info (depuis un spreadsheet… pas la peine de faire compliquer).

Mais à condition d’avoir la liste des URL. Et ça c’est un peu plus chiant parce qu’il n’en charge que 25 à la fois, et qu’il protège assez bien son API privée. Pour le coup il faut un browser headless ou pas, pour le coup on scrape une page donc pas trop besoin de setup une machine à gaz dans le cloud non plus :joy:Un webscraper comme dit plus haut fera ça à merveilles par exemple.

Et une fois que t’as les URLs individuelles des boîtes c’est complètement open bar. Toute la data est servie dans le HTML pur, dans un magnifique JSON. Pas besoin de navigateur. Même pas à parser.

Sinon tu nous fais confiance et le fichier est là gratos. Les copains de Societeinfo l’ont même SIRETisé :innocent:

2 J'aime

Merci beaucoup