Extraction d'e-mails d'auteurs d'articles scientifiques

Biosman · Septembre 15, 2018, 3:14

Bonjour,

Je monte en ce moment une ONG et aurait besoin d’un maximum d’adresses e-mails d’auteurs ayant publié dans une série de journaux scientifiques en open access. En clair, pour l’instant, je clique sur un numéro d’un journal en question, puis sur un article de ce même journal, enfin sur un des auteurs de l’article, ce qui m’ouvre une fenêtre contenant son adresse mail. Je récupère ensuite l’adresse par copier-coller. Sauf qu’il faudrait que je répète cette opération des milliers de fois, pour des milliers d’auteurs ! Quelqu’un aurait-il un moyen d’automatiser la procédure (mon expertise en programmation frise le 0) ?

Merci mille fois pour votre aide !

Biosman

ksahin · Septembre 15, 2018, 3:28

Tu aurais un lien vers un des site qui aggrège des journaux en open access ?

En gros il existe des outils qui te permettent de faire ça sans coder, comme https://www.import.io/

Soit c’est simple et faisable avec import.io ou autre, soit il va falloir mettre les mains dans le camboui et faire un script pour automatiser ça !

ScrapingExpert · Septembre 16, 2018, 12:31

@Biosman (sympa ce pseudo:) )

Je te recommande Kevin (@ksahin) il saura t’automatiser ça, et mieux qu’import.io !

SashaLobstr · Octobre 5, 2018, 3:20

Hello Biosman,

De quel site s’agit-il ?
Je peux te montrer comment faire ça avec request et python, si tu veux

C’est en tout cas un use case intéressant…

YannDeBulle · Octobre 10, 2018, 10:08

Si le site que tu veux scrapper n’utilise pas d’ajax, scrapy est de loin le plus rapide si tu sais coder en python.

Tu peux gagner du temps en utilisant portia pour concevoir ton scraper.

import.io est vraiment pratique et hyper simple à utiliser mais si tu as vraiment des milliers de pages à scanner il risque de ne pas arriver au bout.

Si jamais j’ai vraiment besoin de passer par un navigateur pour scrapper, j’utilise Selenium piloté par python. (mais c’est toujours à condition de savoir coder en python)

Biosman_2 · Janvier 17, 2019, 6:48

Bonjour,

Tout d’abord bonne année à tous et merci beaucoup de vos réponses.
J’ai égaré mon compte initial du coup je m’en suis re-créé un.

Aprés beaucoup de tentatives infructueuses je reviens vers vous… Rien à faire je ne m’en sors pas.

J’ai testé des logiciels (entre autre en version d’essai) comme WebDataExtractorPro, Atomic Email Hunter, et bien d’autres mais les résultats reste très limité (au mieux un peu plus 480 adresses avec WebDataExtractorPro) alors que le site en contient bien plus.

J’ai tenté de passer par des services comme import.io, parsehub, netpeak, scrapinghub ou apify et là je ne suis carrément arrivé absolument à rien du tout…

Je suis complétement perdu

Pour vous donner plus de détail, l’un des site en question est:

Sur ce site on trouve des articles scientifique reparti a raison de 12 par environ 373 pages:

articles comme celui là:

et dans ces articles on trouve l’adresse email des auteurs et co-auteurs dans la section « article info » à droite sur la page de l’article. En cliquant sur article info l’url de la page de l’article se termine par /list/8/

Les emails sont à côté de noms au niveaux de l’image enveloppe en lien mailto: et ceci pour tout les articles du site, soit environ 4500 articles.

il me faudrait un outils capable de « scanner » ces 4500 articles et de récupérer:

les emails des auteurs et co-auteurs avec le lien vers l’article et le titre de l’article
…et si en bonus je peux avoir les noms associé au mail ce serait la perfection.

Apparement WebDataExtractorPro (le programme avec lequel j’ai eu les meilleurs résultats jusqu’a présent) scanne le site, dont les pages des articles (mais sans le /list/8/ à la fin de l’url) et trouve des emails, mais soit il ne scanne pas TOUT les articles, soit il passe à côté de beaucoup d’email J’ai essayé de mettre des critères de restriction mais rien n’y fait, je n’ai pas plus de résultat… voir beaucoup moins…

Sur le même schéma j’ai 2 autres site du même éditeur ou récupérer des emails:

mes notions de programmation python (ou autre) sont hélas proche de zéro…

Si vous avez des pistes, des conseils, je suis preneur de toute l’aide possible.

Si vous m’avez lu jusque là, je vous remercie déja beaucoup

karni · Janvier 18, 2019, 5:13

Comme c’est pour la bonne cause, j ai scrapé tes sites en speed, ton fichier en MP

Biosman_2 · Janvier 18, 2019, 11:24

Vraiment merci mille fois, je me prend la tête depuis des mois la dessus sans arriver à rien et vraiment je ne voyais pas de solution.

Je ne te demande pas comment tu es arrivé à résoudre ce casse tête aussi vite, je ne suis pas sur d’avoir les compétences pour comprendre la réponse, mais en tout cas, chapeau bas et re-merci.