Scraping d'email sur Facebook et multi-sites

jabric · Décembre 22, 2016, 3:36

Bonjour.

Je cherche à identifier et contacter des groupes de musique… et tester pour de bon une première expérience de Growth hacking

Pour cela, je me suis appuyé sur le Festival Ricard Live Music, dans lequel des musiciens devaient demander à leurs fans de voter pour eux sur leur page dédiée (ex : 888bola - Situs Judi bola Online, Sbobet, Live Casino, Slot Online).

J’ai donc commencé à collecter les pages de groupes existantes.
J’ai scrappé via Hurry Scrap les résultats Google sur la requête « 888bola - Situs Judi bola Online, Sbobet, Live Casino, Slot Online » pour en récupérer une bonne partie (environ 600… Je suis passé à côté d’un bon nombre puisqu’il y a au moins 900 groupes mais je ne sais pas où les récupérer, Google n’en montrant qu’une partie même en cliquant sur « voir les pages similaires »).
Petite astuce que l’on m’a expliqué d’ailleurs : passer sur des pages à 100 résultats pour limiter les vérifications Google sur sa lutte contre les bot, et favoriser le succès de cet outil en version béta.

J’ai ensuite récupéré dans un spreadsheet grâce a ImportXML (merci @cebri) les noms des groupes, géographie, site web, page facebook et twitter), en allant scrapper chacune des pages.

Je suis maintenant à ma troisième étape : la recherche du moyen de contact.
J’ai donc à ma disposition, quand les groupes l’ont indiqué :

l’url de leur site
l’url de leur page Facebook
l’url de leur Twitter

Quelles seraient selon vous les meilleures stratégies à mettre en place pour les contacter ?

Contexte :
Je suis sous Mac
Je cherche à utiliser au maximum des outils gratuits dans cette première phase de tests.
Je n’ai pas un profil développeur (je bidouille)

=> Site : il faudrait a priori que je scrappe l’url du site sur 2 niveaux pour aller chercher les emails présents sur le ndd.
Sauf erreur, je n’ai pas trouvé d’outil gratuit cité dans le forum permettant d’automatiser tout ça (mais je m’y perds un peu.

=> Facebook : je pensais facilement pouvoir scrapper l’email présent en page « A propos » des pages fan, mais j’ai l’impression que Facebook a une protection pour que l’on ne récupère pas ces données (qui n’apparaissent pas dans le code source) ?
Import.io refuse d’ailleurs d’aller y scrapper des choses…
Est-ce possible d’après-vous ?

=> Twitter : je ne sais pas trop comment l’utiliser. Automatiser des Direct Message en variant sur 4-5 modèles et en limitant le nombre par heure ? Je ne sais pas trop quel outil utiliser par contre.

Merci de votre regard
Jérémie.

karni · Décembre 23, 2016, 2:24

Hello @jabric

Pour ton premier step ton idée de passer par Google est une piste mais souvent c’est une piste plan B /secours.

Si tu peux scrapper directement sur le site cible c’est mieux car tu évites les problématiques captcha /proxy sur du volume coté Google.En plus toutes les urls de ton cite cible ne sont pas forcement indexées et si oui ne remontent pas toutes depuis une request.

Exemple pour ton projet :

Step 1 : Tu commences par scraper les urls des fiches artistes sur le site cible.

Tu commences à 1 pour la {-Variable.page_number-} et tu incrémentes de 1 pour la page suivante après scrap des urls des fiches artistes…

pour scraper les urls fiches artistes tu peux utiliser du xpath ou cette regex : https://www.ricardsa-livemusic.com/le-prix-2017/candidat/.*?(?=")

Une fois fini tu dedoublonnes car la regex precedente te renvoie 2x les urls

Step 2: c’est bon de ton coté à priori donc je m’étends pas.

Step 3: Dans le cas où tu as le website de l’artiste tu as plusieurs options :

-1 bot « universel » qui poste sur les formulaires de contact de chaque site.

-1 reconstruction de mail type [email protected]|[email protected]…

-1 bot qui whois chaque domaine et scrape les infos de contact du propriétaire

-1 bot qui scrap les mailto/emails sur le site

Pour les réseaux sociaux il te faut des bots dédiés/sur mesure mais c’est relativement facilement réalisable.

Vu que t’es pas dev je te conseille zenno ou Imacro mais sur Mac j’en sais rien au pire machine virtuelle , mais je vois rien de totalement gratuit.

edit:url qui va bien mise à jour+ regex

jabric · Décembre 23, 2016, 11:36

Merci de ta réponse @karni .

Pour le step #1 je ne comprends pas trop.
J’ai l’impression que tu as regardé les artistes partenaires de Ricard (leur fiche n’est pas la même que celle des autres artistes, où il y a justement toutes les coordonnées, nombre de vote, etc).
Je n’ai pas trouvé, sur le site, de listing des pages des groupes qui avaient participé au concours de cette année (qui s’est terminé il y a peu, ils ont peut-être supprimé ces pages « annuaire ».

Pour les sites des groupes, le situations étant tellement hétéroclites, je pense que je vais laisser tomber cette option et me concentrer sur :

automatiser l’envoi de DM sur Twitter
scrapper les emails des pages A propos sur Facebook.

IMacro ne fonctionne pas sur Mac (sauf le plugin navigateur, mais je ne pense pas que tu parlais de ça ?).
Zenno je ne sais pas, je ne comprends pas trop. Tu l’as testé sur du Facebook (je ne comprends pas pourquoi import.io refuse par exemple d’aller sur les pages Facebook).

Jérémie.

karni · Décembre 23, 2016, 12:22

@jabric

Tu as raison, pour être précis c’est cette url :

Tu incrémentes de 1 (cf plus haut) pour passer à la page suivante après avoir scrapé les urls des fiches .

ex: hxxps://www.ricardsa-livemusic.com/le-prix-2017/candidats/page/147/

Si tu es sur Mac tu peux utiliser Virtual Box (avec pas mal de ram si possible) et du coup utiliser les tools sur ton MAC.

Le problème d’import.IO c’est que tu es dépendant de leurs propres limitations (essaye de faire un google scraper avec import.IO…).

camille · Décembre 23, 2016, 1:35

Tu as kimono desktop aussi sur mac : https://www.kimonolabs.com/desktop

jabric · Décembre 23, 2016, 2:12

@camille : Je l’avais téléchargé, mais je n’arrive pas à le faire fonctionner.
A priori il faut une extension chrome pour le faire marcher… mais j’ai l’impression qu’elle n’est plus en ligne :-/

camille · Décembre 23, 2016, 2:24

à partir de ta liste de site internet de groupe, tente : https://grabby.io/

Nicolas_Laustriat · Décembre 29, 2016, 11:57

avec l’outils scrapbox, tu pourrais scanner les email présent sur les site du groupe, choper le mail présent dans el whois du dépot de domaine…

jabric · Décembre 29, 2016, 2:38

Merci @Nicolas_Laustriat .

Pour le moment je n’ai pas d’outils.
Je me pose la question duquel acheter pour un non-dev, si un achat est nécessaire.
Scrapbox… Zeno (utilisé par @karni)…
Pour un usage de scraping d’url puis de scraping d’email au sein de ces url, pour le moment.

J’ai regardé rapidement dans mon fichier de scrap d’url : les sites indiqués par les groupes ne sont pas majoritairement exploitables (renvoi vers des pages facebook à eux, des pages de player audio, youtube…). Je pense que seuls 20% des groupes auraient un site exploitable pour du scrap (et je ne parle pas de whois, certains n’ayant pas de ndd à eux), au seins desquels il y a souvent des formulaires pour les prises de contact.
Bref, cela pourrait faire quelques emails, mais avec énormément de perte en route.

Du coup je m’oriente vers :

le scrapping email de leur page Facebook.
Mais je n’ai pas l’impression que l’on puisse facilement scrapper les emails (ex : sur la page Smogs & Tacos j’ai l’impression que c’est protégé par Facebook…). C’est le cas ou c’est moi qui me plante ?
le mass follow / mass DM de leur compte Twitter…
Mais je n’ai, à date, pas trouvé de moyen de passer de ma liste de comptes twitter en .csv à une interaction sur Twitter (je n’ai jamais trouvé d’outil permettant l’import de fichiers pour interagir sur Twitter, par exemple).

camille · Décembre 29, 2016, 2:49

Scrapebox pour débuter

Oui, impossible

massplanner, rankybot…

karni · Décembre 29, 2016, 4:32

Hello @jabric

Je ne sais pas quel est le meilleur outil pour demarer mais dans tous les cas Scrapebox est un tool incontournable avec pas mal de polyvalence.L’avantage c’est que tout est déjà « prêt » sans trop mettre les mains dans le cambouis.Évidemment tu es limité par les fonctions du tool dès que tu veux aller sur des strategies un peu ambitieuses.

Zenno c’est plus l’artillerie lourde mais tu dois tout construire par toi mème avec les avantages et inconvénients qui vont avec.En gros tu peux faire quasi tout ce que tu veux comme strategies même les plus complexes mais cela nécessite de passer du temps sans parler de la learning curve.Tu peux le faire en autodidacte mais tu devras passer quelques dizaines d’heures mini pour en tirer quelque chose, après c’est que du bonheur.

Pour le scrap des infos notamment les emails sur la partie « about » dans Facebook c’est tout à fait possible , la preuve en image :

MEGA

ScrapingExpert · Décembre 30, 2016, 1:05

Exact, rien d’impossible concernant la partie scraping section « A propos » des pages Facebook, pas de protection, tout est bien dans le code source… Techniquement faisable donc !

conquering_lion · Décembre 30, 2016, 4:22

+1 scrapebox !

link extractor en limitant sur les liens internes à partir d’un batch de 100 issu de gg index:site.tld
tu fais tourner un pti paquet de fois et tu grab les emails sur ta liste d’urls

scrapebox est peut être pas le tool le plus performant (je pense au scrap de regex mail) mais il est polyvalent et aussi évolutif (entrer des footprints perso etc)

VivianSolide · Décembre 30, 2016, 7:41

< troll >je l’ai dans le dom pas dans le code source moi < /troll >

ScrapingExpert · Décembre 31, 2016, 6:54

Et pourtant, il existe bien dans le DOM, il n’est juste pas placé dans la même node, tu le trouveras bien caché dans un script mais en dur, pas en dynamique

Ropobcn · Janvier 7, 2017, 5:13

lourd la video tuto Karni !! merci

Daniel_Nguyen · Juin 15, 2017, 9:41

Je réagis un peu tard mais on ne sait jamais si le besoin existe toujours.

J’avais déjà fait ça pour récupérer des emails de blogueuses pour les solliciter sur une campagne d’affiliation.

C’est fait en python (à partir d’une liste d’url csv, sauvegarde de la page html, et regex pour récupérer l’email) , pas hyper optimisé mais ça fonctionne bien. Je peux filer le code si besoin.

Armel · Juillet 7, 2017, 1:22

Hello Daniel, ca a l’air top ! ca m’intéresse pour tester, est ce que tu as toujours ce script ?
Bonne journée à toi

ScrapingExpert · Août 4, 2017, 3:12

Ou bien: un bot qui récupère les emails en se basant non pas sur le code source HTML mais la page telle qu’elle est en live après loading AJAX et modifications du DOM par Javascript, ce qui permet entre autre d’avoir les adresses emails encryptées, en clair : )

Jalal_Hmani · Décembre 17, 2017, 10:56

hello daniel peux tu stp partager avec nous le code en python je serai reconnaissant . Merci