scraper site

Olivier_Niel · Juin 10, 2021, 6:45

Bonjour

Je cherche une solution simple car je ne suis pas un expert pour scraper le lien suivant

Merci de votre aide

Thomas_Lucyfer · Juin 10, 2021, 7:02

Tu peux faire appel à un expert dans ce cas là ^^

Olivier_Niel · Juin 10, 2021, 7:22

ok c’est trop compliqué avec webscraper?

Thomas_Lucyfer · Juin 10, 2021, 7:49

Non du tout^^

alexandre-chirie · Juin 11, 2021, 6:33

Hello,

Si tu te sens de faire un peu de code, ça fait assez bien en python, notamment avec la librairie BeautifulSoup.

Dans le cas de ce website, il n’y a pas de connexion de demandée (pas de token d’authentification à générer puis rafraichir), les balises contenant l’information sont toujours formatée de la même manière…

C’est un bon cas d’école comme on dit ^^

Ca m’étonnerait pas que tu trouves toutes les infos structurées dans un json au chargement dans la page.

Olivier_Niel · Juin 11, 2021, 8:50

Ok je vais voir si je me lance

interstella5555 · Juin 11, 2021, 9:28

Salut, quelles sont tes connaissances en code ? Quelles sont les informations que tu souhaites collecter ?
En PHP tu peut utiliser la librairie cURL :
-Une fonction avec en paramètre l’URL de la page pour ouvrir une nouvelle session et stocker le résultat dans une variable
-Créer un nouveau XPath Dom object
-Appliquer un query sur l’élément dom voulu
-Stocker cet élément dans un tableau puis afficher le résultat

salesdorado · Juin 14, 2021, 11:10

Hello! On a publié un fichier avec à peu près toutes les boîtes de l’annuaire en question. Ils en annoncent 28000 ou je sais pas combien, mais il y en a genre 20 000 où ils n’ont que le nom et aucun autre point de donnée.

Il se scrape très bien pour info (depuis un spreadsheet… pas la peine de faire compliquer).

Mais à condition d’avoir la liste des URL. Et ça c’est un peu plus chiant parce qu’il n’en charge que 25 à la fois, et qu’il protège assez bien son API privée. Pour le coup il faut un browser headless ou pas, pour le coup on scrape une page donc pas trop besoin de setup une machine à gaz dans le cloud non plus Un webscraper comme dit plus haut fera ça à merveilles par exemple.

Et une fois que t’as les URLs individuelles des boîtes c’est complètement open bar. Toute la data est servie dans le HTML pur, dans un magnifique JSON. Pas besoin de navigateur. Même pas à parser.

Sinon tu nous fais confiance et le fichier est là gratos. Les copains de Societeinfo l’ont même SIRETisé

Olivier_Niel · Juin 15, 2021, 5:46

Merci beaucoup