[TUTO] Scraper les emails de Tripadvisor avec Scrapebox 📧

hello super tuto, de mĂȘme aurais tu des infos pour rĂ©cupĂ©rer toutes les infos comme num de tel nom du resto etc sur la meme fiche ?

1 « J'aime »

Merci Camille pour le tuto et salut Mustapha. Je dois avoir le mĂȘme problĂšme que toi Mustapha ! Si quelqu’un a des idĂ©es pour rĂ©soudre ce problĂšme, je suis preneur. Capture d’écran 2021-11-04 à 17.28.18|690x454

Vu avec SB, il y a eu une MAJ pour certains macs comme le mien (os sierra) et et tout fonctionne maintenant.

Bonjour Ă  tous
je suis nouveau ici et novice en terme de scrapping.
Je suis fortement interessé par scrapebox _smiling_face:
le tuto est parfait merci a celui qui l a fait!!!
mais je me pose la question sur les risques que j encours à utiliser cet outil

ou plutot comment me protéger en utilisant scrapebox??
merci d avance pour vos reponses

Je crois que @camille a fait de la GAV a cause de Scrapbox

3 « J'aime »

Ainsi qu’un toucher rectal.

3 « J'aime »

ca donne pas envie lol

Personnellement j’ai perdu 50% de mes capacitĂ©s de reproduction Ă  cause de scrapebox. Je passe trop de temps avec mon laptop bouillant sur les cuisses en train de scraper


1 « J'aime »

Hello les GH,

j’ai trouvĂ© une mĂ©thode sans scrape box ^^’

je tiens à remercier @camille pour son tuto sur scrapebox et surtout pour les sitemaps ​et bien plus ^^’
(j’ai beaucoup appris a travers ces postes et ses rĂ©ponses, donc un grand merci a @camille

Mais j’ai trouvĂ© une mĂ©thode sans scrapebox et presque gratis. (il faudra re créée des comptes anypicker)
Perso, je l’ai payĂ©, pour 9$/mois ça vaut totalement le coup

La procédure maintenant !

1- rĂ©cupĂ©rer tout les xml.gz avec la nomenclature « fr-restaurant_review Â» des restaurants depuis le sitemaps http://tripadvisor-sitemaps.s3-website-us-east-1.amazonaws.com/2/fr/sitemap_fr_index.xml et les tĂ©lĂ©charger sur votre pc
2- extraire les sitemaps avec 7zip (clique droite puis extraire here) et les repartir dans un minimum de 5 dossier diffùrent (ça a l’air bizarre, mais c’est trùs important pour excel)
3- ouvrir excel, puis en haut, donnĂ©es → obtenir des donnĂ©es → Ă  partir d’un fichier → a partir d’un fichier → ajouter votre dossier avec les xml. Laisser excel travailler
4- Ă  la fin vous avez un fichier avec tous les url des restaurateurs du monde, soit 3.5 millions de lignes.
il faut maintenant nettoyer tout ça.
j’ai pu identifier POUR tripadvisor, dans leur url, il marque la rĂ©gion.
5- toujours sur Excel, placer un filtre sur la colonne des url et trier par « se terminer par Â»
Voici les régions :
normandy.html
loire.html
cosica.html
haut_france.html
france.html
aquitaine.html
azur.html
alpes.html
comte.html
Grand_Est.html
occitanie.html
maintenant vous avez des url de restaurateur francais.
6- vous avez l’outil anypicker (mon nouvel outil de data scraping prĂ©fĂšre)
Il est trùs simple d’utilisation.
Vous créez un nouveau recipe.
Vous choisirez les infos dont vous avez besoin. ( perso tous scraper)
Vous laissez anypicker travail et poufff voilĂ  un fichier bien enrichi sans utiliser scrapebox a 100$.

espĂ©rons que j’ai pu apporter une pierre en plus Ă  l’édifice

3 « J'aime »

C’est intĂ©ressant notamment si on veut scraper l’étranger. Je ne suis pas certain d’avoir tout compris est ce possible d’échanger avec toi sur cette procĂ©dure simplifiĂ©e?
Enfin au sujet d’anypicker, on parle bien de l’add on chrome ?

tu peut scraper tous les restaurateurs du monde.
et oui l’add de chrome
Contacte-moi en pv, ont s’organise un call

TrĂšs cool, je ne connaissais pas :+1:

1 « J'aime »

Hello,

Je dĂ©couvre Scrapebox et veux l’utiliser principalement pour la rĂ©cupĂ©ration de mails.
J’ai suivi ce tuto (bien expliquĂ© au passage et merci beaucoup) et bien d’autres aussi pour arriver Ă  mettre les bons rĂ©glages. La plupart Ă©tĂ©nt en anglais, j’ai brĂ»lĂ© tous mes neurones et lĂ , je craque !

Je n’arrive absolument pas Ă  tĂ©lĂ©charger la moindre url en suivant Ă  la lettre le tuto.
Soit aucune connexion (en bas de l’écran) ne s’affiche soit, quand il y en a j’ai sur chaque ligne un"Read timed out" en gĂ©nĂ©ral (parfois d’autres messages) et rĂ©sultat d’URL nul.

Tripadvisor aurait-il intégré des blocages ou aurais-je loupé un truc à régler ?

Merci à vous pour vos réponses et conseils

1 « J'aime »

J’ai exactement le mĂȘme problĂšme depuis 3 mois ou qque chose comme cela.

1 « J'aime »

J avais le mĂȘme problĂšme Ă©galement.
Il faut mettre Ă  jour scrapebox puis chopper des proxies. Par contre tu n arriveras pas Ă  rĂ©cupĂ©rer toutes les adresses seulement 15 Ă  20% (pour Paris en tout cas). Les autres restant en « timed out Â»

Merci pour ta réponse @Jf122345
Pas de soucis pour le 15 à 20% encore faudrait-il que je sache comment régler cette limite.
J’ai testĂ© avec juste une url et ça n’a rien donnĂ© non plus.
Il y a certainement quelque chose que je n’ai pas compris

on va y arriver @embargo :wink:

Salut Lawa, il n y a pas de limite à régler. Certains fichiers gz ne sont pas téléchargeables tout simplement. Tu devrais néanmoins pouvoir en récupérer quelques uns avec les urls dedans. Je t invite à envoyer un message à SB en leur expliquant ton problÚme, ils sont réactifs.

Hello,
Je te remercie pour ta rĂ©ponse. Je vais leur Ă©crire. S’ils me donnent une explication et rĂ©solution pour mon problĂšme, je la posterai ici. ça pourra peut-ĂȘtre servir :wink:

Merci beaucoup @Benjamin_Brochard pour ce magnifique tuto !!