Script pour scraper les adresses emails ?

Bonjour,

Je recherche un script permettant de scraper les adresses e-mail sur Viadeo ou Linkedin.

Le but est de créer une basse de donnée B2B.

Je connais les plates formes comme Datananas ou Sell Hack cependant le coup est trop élevé pour mon entreprise.

Est-il possible d’utiliser Imacros + Proxy pour arriver à collecter des mails ?

Merci pour votre aide !

@delcros_w

Pourquoi « scrapper » Linkedin ou Viadeo alors que tu as déjà un export csv possible des contacts avec qui tu es en relation…

1 « J'aime »

Bonjour,

Justement pour scrapper des personnes avec qui nous sommes pas en lien…

Pas en lien, ok mais ciblé ?

Tu peux utiliser iMacros mais il faut que tu sois précis, tu risques d’y passer beaucoup de temps, surtout sur Linkedin… Essaie Kimono lab qui est très souple et te permet de récupérer des éléments partout sur une page avec pas mal de précision !

Sinon il faut trouver un moyen d’automatiser l’API de Rapportive (qui est en partie verrouillée parce que Linkedin a racheté le service… :confused: ).
La seule piste que j’ai c’est d’ouvrir la console JS de ton navigateur en faisant tourner Rapportive pour capter l’appel fait à l’API et le récupérer en cURL.


Ça ressemble à ça:

curl ‹ https://api.linkedin.com/v1/people/email=greg%40theassets.co:(first-name,last-name,headline,location,distance,positions,twitter-accounts,im-accounts,phone-numbers,member-url-resources,picture-urls::(original),site-standard-profile-request,public-profile-url,relation-to-viewer:(connections:(person:(first-name,last-name,headline,site-standard-profile-request,picture-urls::(original))))) › -H ‹ dnt: 1 › -H ‹ accept-encoding: gzip, deflate, sdch › -H ‹ accept-language: en-US,en;q=0.8,fr;q=0.6 › -H ‹ x-requested-with: IN.XDCall › -H ‹ cookie: bcookie=« v=2&a361c389-320f-495e-897f-bde674dac25b »; _ga=GA1.2.1367104212.1450444092; _leo_profile=""; _lipt=0_VxNWyJpON6lDBfwDI-Aq9e5-NAktO4g2oMwvnswwIUND2i8uoYNug6P-h558NVAMQA-5lb_oMDcdoldsu2rtXAzroflxMgFi9TRXDt7zLa94C7JpE5bXZoKm5EO7Z521W6ArQpR0C_agTzaK0mV20kLQ7oC-c3XUBxz63Dyt4epCpwTZTIp4P5v642yh61wKWXXLupKQfyJIfFoHuM_axHtgJGF3Uge2TDU9esK9zwk2YjkFhEzBYUtqKSoUxEuLbMHqQr9AWtPJJplGm5pwNqOy4jMmyX-izUqtIeo-fLQNQYcmyW9Gwn65TocgR95aPofT8JXx04nU1uheU_3imyNIEL0GtSXtM-8WX1csvDg9Mbu-XeMo4MhXCTFZHw2O; lang=« v=2&lang=en-us&c= »; liap=true; sdsc=1%3A1SZM1shxDNbLt36wZwCgPgvN58iw%3D; lidc=« b=VB78:g=279:u=170:i=1453849272:t=1453935672:s=AQGwmCBeWLRZM7bSqTdUJfVjacOSY3xm » › -H ‹ x-li-format: json › -H ‹ x-http-method-override: GET › -H ‹ x-cross-domain-origin: https://mail.google.com › -H ‹ user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2631.0 Safari/537.36 › -H ‹ content-type: application/json › -H ‹ accept: / › -H ‹ referer: https://api.linkedin.com/uas/js/xdrpc.html?v=0.0.2000-RC8.53856-1429 › -H ‹ oauth_token: QHbqpj2sJbupSOY388BzuymbDgzjRGpsfznG › --compressed


Les éléments qui sont intéressants sont les deux arguments

  • ‹ oauth_token: QHbqpj2sJbupSOY388BzuymbDgzjRGpsfznG ›
  • ‹ x-li-format: json ›

On doit pouvoir faire un appel à l’API pour soumettre des adresses mail à la chaîne en utilisant le token d’authentification, et on peut utiliser des données en json.