Scraping site

Bonjour,

Je recherche bêtement à scrapper les urls des différents départements de ce site mais je n’y arrive pas.

Avez-vous une astuce ?
http://www.1001france.fr/

Bonjour,

C’est ça que tu veux : http://www.1001france.fr/sitemap.xml ?

1 « J'aime »

Comme disait @NicolasF, tu cherches à faire quoi exactement? Juste récupérer les URLs des différents départements, ou bien scraper le contenu de chaque page de département?

1 « J'aime »

En fait, je cherchais à récupérer tous les sites étant dans chaque page.
Avec parsehub, j’ai plus ou moins réussi à faire ce qje je voulais.
En gros mon souhait, pouvoit scrapper tous les sites d’office de tourisme si jamais vous avez des idées, je suis preneur !

Bonjour @Davidplanch,

Quand on regarde le site [http://www.1001france.fr/ ], on voit qu’il n’y a pas beaucoup de sites d’office de tourisme renseignés. En fait il n’y en a quasiment pas.Tu as plus d’offices ici : https://www.tourisme.fr/annuaire-offices-tourisme-en-france.htm

Un petit script JS et c’est plié.

1 « J'aime »

Pas certain que cette source doit davantage pertinente, je viens de faire plus de 20 pages à la main, et il n’y a rien, les liens vers les sites Internet des offices sont faux et pointent sur la même page (la page de l’office de tourisme sur laquelle on est déja).

1 « J'aime »

En fait non, si on clique sur le lien « Site internet officiel » le site officiel apparait en dessous.

exemple : https://www.tourisme.fr/2308/office-de-tourisme-la-baule.htm

2 « J'aime »

Bien vu ! @NicolasF sorry j’ai parlé trop vite

2 « J'aime »

@ScrapingExpert je m’étais fait avoir aussi :slight_smile:

2 « J'aime »

Merci à tous, he vais tester sur le site tourisme.fr avec parsehub ! Le script JS, je connais un peu moins donc plus difficile pour moi.
C’est simple ?

@Davidplanch Faut connaitre un peu le Javascript… tiens moi au courant si parsehub fait le taf.

j’avais réussi mais j’ai une limitation de 200 pages malheursueement… Si jamais il y a un tuto simple permettant d’expliquer comment ça fonctionne, je suis preneur, sinon, tampis !

Merci :slight_smile:

Tu peux tenter le coup avec l’extension Dataminer.io, en deux étapes:

  1. Extraction des URLs des pages offices de tourismes → dans un csv
  2. Extraction des données des offices de tourismes à partir du csv précédemment créé
1 « J'aime »

Merci,
En fait, en fouillant rapidement, j’ai pu récupérer le sitemap et ensuite en hachant les urls par 50, j’ai pu faire u google sheet avec import xml et c’était bon :slight_smile:
Pas de besoin de faire de scraping en fait.
Merci à tous !

Reste plus qu’à trouver les bons emails…

Ca reste du scraping quand même :sweat_smile:

Pour trouver les emails, il te faut un bot d’extract d’emails à partir de l’URL d’un site.

Tu peux utiliser Phantombuster pour ça, via cette brique:
https://phantombuster.com/api-store/6774/email-extractor?referral=growthhacking-5VaJxDdpb

Bonjour à Tous,
Quelqu’un a t il du nouveau au sujet de ce projet de scrapping des emails des Offices de tourisme ?
J’ai envoyé des messages a davidplanch mais il semble qu’il n’est plus actif.

fp

J’ai ce lien avec les données des offices de tourisme d’IDF si cela intéresse quelqu’un.
http://pro.visitparisregion.com/en/Tools-and-press/Open-Data