Extraction données Web pour BDD


#1

Bonjour à tous,

Je souhaiterais extraire des données à partir de la page internet de plusieurs hôtels appartenant au même groupe : Accor Hotels.

Chaque hotel possède une page dédiée, construite de la même manière

Les données qui m’intéressent sont l’adresse, le nom de l’hôtelier… bref des données toujours situées au même endroit.

Ce qui est intéressant : c’est que dans l’URL, vous remarqué qu’il y a 8844. Il s’agit en fait du code hotel : l’ID de cet hotel. Or, si on change manuellement ce numéro à 4 chiffres dans la bar de recherche et qu’on fait entrée, on arrive (si celui-ci existe) sur la page d’un autre hotel du groupe Accor.

Mon objectif : pouvoir visiter les 9999 pages possibles (seulement environ 1/4 donnerons un résultat) et y extraire les données souhaitées dans un tableau excel.

Mes connaissances étant assez limitées en extraction de donnée, des pistes ???

Merci à tous et bonne journée,

Alex


#2

Je pense qu’en téléchargeant l’app Import.io, tu pourras créer un crawler qui pourrait faire le travail. Règle bien le crawler pour qu’il ne scrappe pas trop vite les fiches.
Le mieux était de prendre des Proxies privés .


#3

Bonjour Alex,

Si jamais les outils de base et gratuits ne font pas l’affaire, n’hésitez pas à me contacter. Mais tout d’abord je laisse la place aux personnes pouvant proposer des outils déjà existants. :smiley:

Sinon, pour ce qui est de l’utilisation de proxies privés, j’en ai à ma disposition actuellement, mais je ne sais pas si c’est vraiment nécessaire pour un site comme accorhotels.com.


#4

Hello @YuGAZ,

Je t’ai mis la liste des urls ici : https://goo.gl/1ucyrU

Comme tu peux voir, il y a pas mal d’ids alphanumériques.

À partir de cette liste, avec kimonolabs ou import.io, tu pourras extraire ce dont tu as besoin.

Normalement pas besoin de proxy, mais évite le multithread.


#5

Hello Camille,

par curiosité tu as utilisé quoi comme outils ?

Merci,

Grégory


#6

Deux choix,


#7

Nice ce sitemap caché :slight_smile: merci pour le trick !


#8

Hello @camillebesse ,

Merci pour ta réponse et pour ma liste complète, c’est vraiment sympa !! Je vais essayer avec Kimono :wink:


#9

Hello,

J’ai fais une extraction avec import.io mais le format obtenu n’est pas satisfaisant. Serais-tu disponibles pour échanger? Dans quel région es-tu? Merci


#10

Hola,

Sans problème pour échanger. Quel et le soucis exact vis à vis du format que tu as obtenu avec import.io?

Je suis de Lorraine (Nancy), et toi?


#11

@ScrapingExpert c’est bon en fait il suffisait de convertir les données sur excel car elles arrivaient dans la même colonne. Merci !!


#12

note de service : #lol #penséepersonnelle

1/ si l’équipe digitale de cette entreprise hotelière fait bien son job de veille elle va voir ressortir sa marque ,et donc prendre pour le futur des mesures de prévention au scrapp ou foutre des pages volontairement masqué que pour les scrappeur (et si elle lise ce poste quelle me contacte…:wink: donc pour la pérénité des échange sur le forum peut etre ne pas cité des marques et mettre des lien bit.ly pour les cibles de scrap.

2 /merci camille pour le scrap

3/ merci fenfir75 pour ce scrappeur que je ne connaissait pas.

4/ Yugaz tu ne nous a pas di l’objectif de ton scrap web, apps mobile ? c’est secret? scrapper pour créer du duplicate warning… idem pour les visuels warning les phtographe ou banque d’image payante te tomberont sur le tronche et c’est pas cette société hotelière qui prendra ta défense.

++


#13

Cette marque est partenaire. Nous sommes référencés. Scrap utilisé pour MAJ de la BDD au niveau des coordonnées décideurs. Rien de bien méchant :wink:


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr