[TUTO] Scraper les emails de Tripadvisor avec Scrapebox 📧

1Pablo · Octobre 17, 2021, 5:37

hello super tuto, de même aurais tu des infos pour récupérer toutes les infos comme num de tel nom du resto etc sur la meme fiche ?

Alex44 · Novembre 4, 2021, 4:46

Merci Camille pour le tuto et salut Mustapha. Je dois avoir le même problème que toi Mustapha ! Si quelqu’un a des idées pour résoudre ce problème, je suis preneur. Capture d’écran 2021-11-04 à 17.28.18|690x454

Jf122345 · Novembre 10, 2021, 6:45

Vu avec SB, il y a eu une MAJ pour certains macs comme le mien (os sierra) et et tout fonctionne maintenant.

Scarabee · Novembre 16, 2021, 3:08

Bonjour à tous
je suis nouveau ici et novice en terme de scrapping.
Je suis fortement interessé par scrapebox _smiling_face:
le tuto est parfait merci a celui qui l a fait!!!
mais je me pose la question sur les risques que j encours à utiliser cet outil…
ou plutot comment me protéger en utilisant scrapebox??
merci d avance pour vos reponses

Thomas_Lucyfer · Novembre 16, 2021, 3:09

Je crois que @camille a fait de la GAV a cause de Scrapbox

camille · Novembre 16, 2021, 3:13

Ainsi qu’un toucher rectal.

Scarabee · Novembre 16, 2021, 3:49

ca donne pas envie lol

embargo · Novembre 17, 2021, 7:00

Personnellement j’ai perdu 50% de mes capacités de reproduction à cause de scrapebox. Je passe trop de temps avec mon laptop bouillant sur les cuisses en train de scraper…

Sales-cpa · Novembre 17, 2021, 5:24

Hello les GH,

j’ai trouvé une méthode sans scrape box ^^’

je tiens à remercier @camille pour son tuto sur scrapebox et surtout pour les sitemaps et bien plus ^^’
(j’ai beaucoup appris a travers ces postes et ses réponses, donc un grand merci a @camille

Mais j’ai trouvé une méthode sans scrapebox et presque gratis. (il faudra re créée des comptes anypicker)
Perso, je l’ai payé, pour 9$/mois ça vaut totalement le coup

La procédure maintenant !

1- récupérer tout les xml.gz avec la nomenclature « fr-restaurant_review » des restaurants depuis le sitemaps http://tripadvisor-sitemaps.s3-website-us-east-1.amazonaws.com/2/fr/sitemap_fr_index.xml et les télécharger sur votre pc
2- extraire les sitemaps avec 7zip (clique droite puis extraire here) et les repartir dans un minimum de 5 dossier diffèrent (ça a l’air bizarre, mais c’est très important pour excel)
3- ouvrir excel, puis en haut, données → obtenir des données → à partir d’un fichier → a partir d’un fichier → ajouter votre dossier avec les xml. Laisser excel travailler
4- à la fin vous avez un fichier avec tous les url des restaurateurs du monde, soit 3.5 millions de lignes.
il faut maintenant nettoyer tout ça.
j’ai pu identifier POUR tripadvisor, dans leur url, il marque la région.
5- toujours sur Excel, placer un filtre sur la colonne des url et trier par « se terminer par »
Voici les régions :
normandy.html
loire.html
cosica.html
haut_france.html
france.html
aquitaine.html
azur.html
alpes.html
comte.html
Grand_Est.html
occitanie.html
maintenant vous avez des url de restaurateur francais.
6- vous avez l’outil anypicker (mon nouvel outil de data scraping préfère)
Il est très simple d’utilisation.
Vous créez un nouveau recipe.
Vous choisirez les infos dont vous avez besoin. ( perso tous scraper)
Vous laissez anypicker travail et poufff voilà un fichier bien enrichi sans utiliser scrapebox a 100$.

espérons que j’ai pu apporter une pierre en plus à l’édifice

embargo · Novembre 17, 2021, 9:00

C’est intéressant notamment si on veut scraper l’étranger. Je ne suis pas certain d’avoir tout compris est ce possible d’échanger avec toi sur cette procédure simplifiée?
Enfin au sujet d’anypicker, on parle bien de l’add on chrome ?

Sales-cpa · Novembre 18, 2021, 3:14

tu peut scraper tous les restaurateurs du monde.
et oui l’add de chrome
Contacte-moi en pv, ont s’organise un call

camille · Novembre 18, 2021, 4:13

Très cool, je ne connaissais pas

LaWa · Décembre 20, 2021, 4:15

Hello,

Je découvre Scrapebox et veux l’utiliser principalement pour la récupération de mails.
J’ai suivi ce tuto (bien expliqué au passage et merci beaucoup) et bien d’autres aussi pour arriver à mettre les bons réglages. La plupart étént en anglais, j’ai brûlé tous mes neurones et là, je craque !

Je n’arrive absolument pas à télécharger la moindre url en suivant à la lettre le tuto.
Soit aucune connexion (en bas de l’écran) ne s’affiche soit, quand il y en a j’ai sur chaque ligne un"Read timed out" en général (parfois d’autres messages) et résultat d’URL nul.

Tripadvisor aurait-il intégré des blocages ou aurais-je loupé un truc à régler ?

Merci à vous pour vos réponses et conseils

embargo · Décembre 20, 2021, 6:42

J’ai exactement le même problème depuis 3 mois ou qque chose comme cela.

Jf122345 · Décembre 20, 2021, 7:56

J avais le même problème également.
Il faut mettre à jour scrapebox puis chopper des proxies. Par contre tu n arriveras pas à récupérer toutes les adresses seulement 15 à 20% (pour Paris en tout cas). Les autres restant en « timed out »

LaWa · Décembre 20, 2021, 10:45

Merci pour ta réponse @Jf122345
Pas de soucis pour le 15 à 20% encore faudrait-il que je sache comment régler cette limite.
J’ai testé avec juste une url et ça n’a rien donné non plus.
Il y a certainement quelque chose que je n’ai pas compris

LaWa · Décembre 20, 2021, 10:45

on va y arriver @embargo

Jf122345 · Décembre 21, 2021, 8:52

Salut Lawa, il n y a pas de limite à régler. Certains fichiers gz ne sont pas téléchargeables tout simplement. Tu devrais néanmoins pouvoir en récupérer quelques uns avec les urls dedans. Je t invite à envoyer un message à SB en leur expliquant ton problème, ils sont réactifs.

LaWa · Décembre 21, 2021, 10:18

Hello,
Je te remercie pour ta réponse. Je vais leur écrire. S’ils me donnent une explication et résolution pour mon problème, je la posterai ici. ça pourra peut-être servir

Mad1 · Décembre 25, 2021, 2:30

Merci beaucoup @Benjamin_Brochard pour ce magnifique tuto !!