Scraping site


#1

Bonjour,

Je recherche bêtement à scrapper les urls des différents départements de ce site mais je n’y arrive pas.

Avez-vous une astuce ?
http://www.1001france.fr/


#2

Bonjour,

C’est ça que tu veux : http://www.1001france.fr/sitemap.xml ?


#3

Comme disait @NicolasF, tu cherches à faire quoi exactement? Juste récupérer les URLs des différents départements, ou bien scraper le contenu de chaque page de département?


#4

En fait, je cherchais à récupérer tous les sites étant dans chaque page.
Avec parsehub, j’ai plus ou moins réussi à faire ce qje je voulais.
En gros mon souhait, pouvoit scrapper tous les sites d’office de tourisme si jamais vous avez des idées, je suis preneur !


#5

Bonjour @Davidplanch,

Quand on regarde le site [http://www.1001france.fr/ ], on voit qu’il n’y a pas beaucoup de sites d’office de tourisme renseignés. En fait il n’y en a quasiment pas.Tu as plus d’offices ici : https://www.tourisme.fr/annuaire-offices-tourisme-en-france.htm

Un petit script JS et c’est plié.


#6

Pas certain que cette source doit davantage pertinente, je viens de faire plus de 20 pages à la main, et il n’y a rien, les liens vers les sites Internet des offices sont faux et pointent sur la même page (la page de l’office de tourisme sur laquelle on est déja).


#7

En fait non, si on clique sur le lien “Site internet officiel” le site officiel apparait en dessous.

exemple : https://www.tourisme.fr/2308/office-de-tourisme-la-baule.htm


#8

Bien vu ! @NicolasF sorry j’ai parlé trop vite


#9

@ScrapingExpert je m’étais fait avoir aussi :slight_smile:


#10

Merci à tous, he vais tester sur le site tourisme.fr avec parsehub ! Le script JS, je connais un peu moins donc plus difficile pour moi.
C’est simple ?


#11

@Davidplanch Faut connaitre un peu le Javascript… tiens moi au courant si parsehub fait le taf.


#12

j’avais réussi mais j’ai une limitation de 200 pages malheursueement… Si jamais il y a un tuto simple permettant d’expliquer comment ça fonctionne, je suis preneur, sinon, tampis !

Merci :slight_smile:


#13

Tu peux tenter le coup avec l’extension Dataminer.io, en deux étapes:

  1. Extraction des URLs des pages offices de tourismes -> dans un csv
  2. Extraction des données des offices de tourismes à partir du csv précédemment créé

#14

Merci,
En fait, en fouillant rapidement, j’ai pu récupérer le sitemap et ensuite en hachant les urls par 50, j’ai pu faire u google sheet avec import xml et c’était bon :slight_smile:
Pas de besoin de faire de scraping en fait.
Merci à tous !


#15

Reste plus qu’à trouver les bons emails…


#16

Ca reste du scraping quand même :sweat_smile:

Pour trouver les emails, il te faut un bot d’extract d’emails à partir de l’URL d’un site.

Tu peux utiliser Phantombuster pour ça, via cette brique:
https://phantombuster.com/api-store/6774/email-extractor


Team : CamilleBriceJulienVivianBorisXavierSteven.