[TUTO] Scraper les emails de Tripadvisor avec Scrapebox ✉

hello super tuto, de même aurais tu des infos pour récupérer toutes les infos comme num de tel nom du resto etc sur la meme fiche ?

1 « J'aime »

Merci Camille pour le tuto et salut Mustapha. Je dois avoir le même problème que toi Mustapha ! Si quelqu’un a des idées pour résoudre ce problème, je suis preneur. Capture d’écran 2021-11-04 à 17.28.18|690x454

Vu avec SB, il y a eu une MAJ pour certains macs comme le mien (os sierra) et et tout fonctionne maintenant.

Bonjour à tous
je suis nouveau ici et novice en terme de scrapping.
Je suis fortement interessé par scrapebox _smiling_face:
le tuto est parfait merci a celui qui l a fait!!!
mais je me pose la question sur les risques que j encours à utiliser cet outil…
ou plutot comment me protéger en utilisant scrapebox??
merci d avance pour vos reponses

Je crois que @Camille a fait de la GAV a cause de Scrapbox

3 « J'aime »

Ainsi qu’un toucher rectal.

3 « J'aime »

ca donne pas envie lol

Personnellement j’ai perdu 50% de mes capacités de reproduction à cause de scrapebox. Je passe trop de temps avec mon laptop bouillant sur les cuisses en train de scraper…

1 « J'aime »

Hello les GH,

j’ai trouvé une méthode sans scrape box ^^’

je tiens à remercier @Camille pour son tuto sur scrapebox et surtout pour les sitemaps ​et bien plus ^^’
(j’ai beaucoup appris a travers ces postes et ses réponses, donc un grand merci a @Camille

Mais j’ai trouvé une méthode sans scrapebox et presque gratis. (il faudra re créée des comptes anypicker)
Perso, je l’ai payé, pour 9$/mois ça vaut totalement le coup

La procédure maintenant !

1- récupérer tout les xml.gz avec la nomenclature « fr-restaurant_review » des restaurants depuis le sitemaps http://tripadvisor-sitemaps.s3-website-us-east-1.amazonaws.com/2/fr/sitemap_fr_index.xml et les télécharger sur votre pc
2- extraire les sitemaps avec 7zip (clique droite puis extraire here) et les repartir dans un minimum de 5 dossier diffèrent (ça a l’air bizarre, mais c’est très important pour excel)
3- ouvrir excel, puis en haut, données → obtenir des données → à partir d’un fichier → a partir d’un fichier → ajouter votre dossier avec les xml. Laisser excel travailler
4- à la fin vous avez un fichier avec tous les url des restaurateurs du monde, soit 3.5 millions de lignes.
il faut maintenant nettoyer tout ça.
j’ai pu identifier POUR tripadvisor, dans leur url, il marque la région.
5- toujours sur Excel, placer un filtre sur la colonne des url et trier par « se terminer par »
Voici les régions :
normandy.html
loire.html
cosica.html
haut_france.html
france.html
aquitaine.html
azur.html
alpes.html
comte.html
Grand_Est.html
occitanie.html
maintenant vous avez des url de restaurateur francais.
6- vous avez l’outil anypicker (mon nouvel outil de data scraping préfère)
Il est très simple d’utilisation.
Vous créez un nouveau recipe.
Vous choisirez les infos dont vous avez besoin. ( perso tous scraper)
Vous laissez anypicker travail et poufff voilà un fichier bien enrichi sans utiliser scrapebox a 100$.

espérons que j’ai pu apporter une pierre en plus à l’édifice

3 « J'aime »

C’est intéressant notamment si on veut scraper l’étranger. Je ne suis pas certain d’avoir tout compris est ce possible d’échanger avec toi sur cette procédure simplifiée?
Enfin au sujet d’anypicker, on parle bien de l’add on chrome ?

tu peut scraper tous les restaurateurs du monde.
et oui l’add de chrome
Contacte-moi en pv, ont s’organise un call

Très cool, je ne connaissais pas :+1:

1 « J'aime »

Hello,

Je découvre Scrapebox et veux l’utiliser principalement pour la récupération de mails.
J’ai suivi ce tuto (bien expliqué au passage et merci beaucoup) et bien d’autres aussi pour arriver à mettre les bons réglages. La plupart étént en anglais, j’ai brûlé tous mes neurones et là, je craque !

Je n’arrive absolument pas à télécharger la moindre url en suivant à la lettre le tuto.
Soit aucune connexion (en bas de l’écran) ne s’affiche soit, quand il y en a j’ai sur chaque ligne un"Read timed out" en général (parfois d’autres messages) et résultat d’URL nul.

Tripadvisor aurait-il intégré des blocages ou aurais-je loupé un truc à régler ?

Merci à vous pour vos réponses et conseils

1 « J'aime »

J’ai exactement le même problème depuis 3 mois ou qque chose comme cela.

1 « J'aime »

J avais le même problème également.
Il faut mettre à jour scrapebox puis chopper des proxies. Par contre tu n arriveras pas à récupérer toutes les adresses seulement 15 à 20% (pour Paris en tout cas). Les autres restant en « timed out »

Merci pour ta réponse @Jf122345
Pas de soucis pour le 15 à 20% encore faudrait-il que je sache comment régler cette limite.
J’ai testé avec juste une url et ça n’a rien donné non plus.
Il y a certainement quelque chose que je n’ai pas compris

on va y arriver @embargo :wink:

Salut Lawa, il n y a pas de limite à régler. Certains fichiers gz ne sont pas téléchargeables tout simplement. Tu devrais néanmoins pouvoir en récupérer quelques uns avec les urls dedans. Je t invite à envoyer un message à SB en leur expliquant ton problème, ils sont réactifs.

Hello,
Je te remercie pour ta réponse. Je vais leur écrire. S’ils me donnent une explication et résolution pour mon problème, je la posterai ici. ça pourra peut-être servir :wink:

Merci beaucoup @Benjamin_Brochard pour ce magnifique tuto !!