Scrapping données Tourisme-occitanie.com

Bonjour,

Je cherche comment scrapper tous les établissements avec les données présente (email, téléphone, site internet, réseaux sociaux) du site suivant : Carte Interactive - Tourisme en Occitanie

Comment faire ?

Je suis novice dans ce domaine.

Merci à vous

1 « J'aime »

Bonjour,

J’ai extrait les urls des fiches. Tu as plus de 8000 fiches du type:

Certaines fiches sont en 404, d’autres sont certainement inutiles à ton projet. Les catégories sont les suivantes:

activite
commerce-et-service
degustation
equipement
fete-et-manifestation
hebergement-collectif
hebergement-locatif
hotellerie
hotellerie-plein-air
itineraire
patrimoine-culturel
patrimoine-naturel
poi
restauration
sejour-package

@Matconi par curiosité, tu passes par quel outil ou code ? merci !

Merci, il est possible d’extraire toutes les données des fiches individuelles ?

Je passe généralement par le sitemap du site. Tu peux trouver l’adresse en regardant en principe dans le robots.txt.

J’ai fait l’extraction. Tu as un peu plus de 4000 fiches. Ils ont beaucoup de 404. Le fichier est brut. A toi de le retravailler pour remettre les infos dans le bon ordre.

Mais oui, en effet, par le sitemap. Comment obtiens-tu ce magnifique fichier ensuite ? merci ! Je passe par un prompt mais fasditieux.

Merci, la je suis en train de scrap par département chaque fiches avec les informations que je souhaite en utilisant python, je vais voir ce que ça donne.

j’ai utilisé Octoparse