Scrapping email des sites Wordpress Francais avec Scrapebox

Bonjour à tous,

J’espère que ma requête 'a pas déjà été posée (j’ai regardé mais je n’ai rien vu de tel).
Je suis totalement débutant sur Scrapebox, je découvre à peine, pour info…

Deux questions concernant Scrapebox :

1 : Ou trouver de la doc claire ou des vidéos sur l’utilisation de Scrapebox en Français idéalement (mon associé n’est pas bilingue et c’est un véritable frein pour lui).
J’ai bien trouvé quelques tutos sur youtube mais rien de transcendant, en surface…

2 : Quels réglages feriez-vous dans scrapebox pour qu’il ailles scrapper une liste d’url (afin d’en obtenir des emails) de sites Francais sur Wordpress, et uniquement sur Wordpress ?
J’ai tenté avec :
allinurl: .fr wp-content
mais rien n’y fait, il me ressort peu de résultats viables et beaucoup de sites ne sont pas en .fr et beaucoup également ne sont pas des sites WordPress… Je ne match que très peu de sites contenant les deux occurrences.

Étonnant (pas tant que ça vu mon niveau actuel) ?!

Merci d’avance pour votre aide envers un tout jeune scrapper en herbe.
ET BRAVO pour ce site qui est une mine d’or !

Bonne journée all,
Patrick

1 « J'aime »

Je connais pas de doc FR pour Scrapebox.

Pour ta recherche tu peux faire un truc du style : site:*.fr inurl:wp-content mais la commande inurl génère souvent du captcha ou alors le classique « propulsé par WordPress »

Si tu débutes en footprints tu peux aussi passer par http://www.seo-footprints.com/ pour t’aider.

Ensuite tu peux éventuellement avoir un bot qui va cliquer sur les liens /ancres contact|contactez nous|mentions légales… depuis la home des urls scrappées puis regex qui extrait les emails sur la page de destination.

Tu peux aussi jouer avec des trucs comme ça : site:*.fr inurl:wp-content @gmail.com

2 « J'aime »

Merci Karni, j’aurai au moins quelques bonnes pistes :wink:

Je débute en effet, et je n’ai pas trouvé bcp de sources en français (tutos vidéos) sur scrapebox, en anglais il parle un poil trop vite et je ne pige pas tout ^^

Patrick

PS : je veux me scrapper une liste d’urls de sites sur WP en .fr pour faire simple !

@Patlegris, tu souhaites uniquement une liste d’URLs de site WP *.fr,
ou tu souhaites collecter du contenu sur ces sites ensuite ?

Hello @SashaLobstr

J’aimerai simplement la liste des urls dans un premier temps. ce serait déjà très bien.
Mais j’ai tenté plein de combinaisons, ça me sort un peu de tout et surtout PAS QUE DU WP (wp-config, site:fr…)

Idéalement, et en plus, si j’arrivais à trouver un ou des tutos FR sur l’utilisation de scrapebox ce serait top ^^
Déjà, les urls de sites WP en .fr ça serait fantastique.

Merci d’avance,

Hello @SashaLobstr ,

Oui je cherche à capturer la liste des url’s

Merci d’avance,

Bonjour @Patlegris,
Il existe de nombreux services qui agrègent les sites par « technologie utilisée ».

Wappalyzer, les américains : https://www.wappalyzer.com/
Hunter.io, nos chers français : https://techlookup.hunter.io/
Et des solutions semi-gratuites : PublicWWW - PublicWWW.com

Il suffit de mettre un mot clé, et le moteur de recherche renvoie la liste des sites.

Si tu souhaites ensuite collecter les données depuis les Wordpress, je ne connais pas bien Scrapbox, mais tu peux faire appel à des sociétés de scraping, qui vont crawler les pages des sites en question, et aller chercher mails et téléphone en utilisant des regex.

3 « J'aime »

Génial @SashaLobstr !!!

Un grand merci, je suis encore tout jeunot en scraping et bien que j’utilise Whappalizer je ne savais pas que l’on pouvait obtenir une liste aussi facilement.
Sur Hunter j’ai trouvé 100% mon bonheur.

Tu viens de donner un fabuleux coup de pouce à une petite équipe de 8 freelances !

Si tu en as d’autres dans le genre je suis preneur !
Je cherche (entre autre) à entre en contact avec des personnes dans des groupes bien précis, sur LKD et FB… ? Une industrialisation du message direct de prise de contact, ça doit être u peu plus chaud ça à cause des possibilités de BL j’imagine.

On ne sais jamais…

En tout cas MERCI, MERCI, MERCI !