J’espère que ma requête 'a pas déjà été posée (j’ai regardé mais je n’ai rien vu de tel).
Je suis totalement débutant sur Scrapebox, je découvre à peine, pour info…
Deux questions concernant Scrapebox :
1 : Ou trouver de la doc claire ou des vidéos sur l’utilisation de Scrapebox en Français idéalement (mon associé n’est pas bilingue et c’est un véritable frein pour lui).
J’ai bien trouvé quelques tutos sur youtube mais rien de transcendant, en surface…
2 : Quels réglages feriez-vous dans scrapebox pour qu’il ailles scrapper une liste d’url (afin d’en obtenir des emails) de sites Francais sur Wordpress, et uniquement sur Wordpress ?
J’ai tenté avec :
allinurl: .fr wp-content
mais rien n’y fait, il me ressort peu de résultats viables et beaucoup de sites ne sont pas en .fr et beaucoup également ne sont pas des sites WordPress… Je ne match que très peu de sites contenant les deux occurrences.
Étonnant (pas tant que ça vu mon niveau actuel) ?!
Merci d’avance pour votre aide envers un tout jeune scrapper en herbe.
ET BRAVO pour ce site qui est une mine d’or !
Pour ta recherche tu peux faire un truc du style : site:*.fr inurl:wp-content mais la commande inurl génère souvent du captcha ou alors le classique « propulsé par WordPress »
Ensuite tu peux éventuellement avoir un bot qui va cliquer sur les liens /ancres contact|contactez nous|mentions légales… depuis la home des urls scrappées puis regex qui extrait les emails sur la page de destination.
Tu peux aussi jouer avec des trucs comme ça : site:*.fr inurl:wp-content @gmail.com
Merci Karni, j’aurai au moins quelques bonnes pistes
Je débute en effet, et je n’ai pas trouvé bcp de sources en français (tutos vidéos) sur scrapebox, en anglais il parle un poil trop vite et je ne pige pas tout ^^
Patrick
PS : je veux me scrapper une liste d’urls de sites sur WP en .fr pour faire simple !
J’aimerai simplement la liste des urls dans un premier temps. ce serait déjà très bien.
Mais j’ai tenté plein de combinaisons, ça me sort un peu de tout et surtout PAS QUE DU WP (wp-config, site:fr…)
Idéalement, et en plus, si j’arrivais à trouver un ou des tutos FR sur l’utilisation de scrapebox ce serait top ^^
Déjà, les urls de sites WP en .fr ça serait fantastique.
Si tu souhaites ensuite collecter les données depuis les Wordpress, je ne connais pas bien Scrapbox, mais tu peux faire appel à des sociétés de scraping, qui vont crawler les pages des sites en question, et aller chercher mails et téléphone en utilisant des regex.
Un grand merci, je suis encore tout jeunot en scraping et bien que j’utilise Whappalizer je ne savais pas que l’on pouvait obtenir une liste aussi facilement.
Sur Hunter j’ai trouvé 100% mon bonheur.
Tu viens de donner un fabuleux coup de pouce à une petite équipe de 8 freelances !
Si tu en as d’autres dans le genre je suis preneur !
Je cherche (entre autre) à entre en contact avec des personnes dans des groupes bien précis, sur LKD et FB… ? Une industrialisation du message direct de prise de contact, ça doit être u peu plus chaud ça à cause des possibilités de BL j’imagine.