Extraction d'e-mails d'auteurs d'articles scientifiques


#1

Bonjour,

Je monte en ce moment une ONG et aurait besoin d’un maximum d’adresses e-mails d’auteurs ayant publié dans une série de journaux scientifiques en open access. En clair, pour l’instant, je clique sur un numéro d’un journal en question, puis sur un article de ce même journal, enfin sur un des auteurs de l’article, ce qui m’ouvre une fenêtre contenant son adresse mail. Je récupère ensuite l’adresse par copier-coller. Sauf qu’il faudrait que je répète cette opération des milliers de fois, pour des milliers d’auteurs ! Quelqu’un aurait-il un moyen d’automatiser la procédure (mon expertise en programmation frise le 0) ?

Merci mille fois pour votre aide !

Biosman


#2

Tu aurais un lien vers un des site qui aggrège des journaux en open access ?

En gros il existe des outils qui te permettent de faire ça sans coder, comme https://www.import.io/

Soit c’est simple et faisable avec import.io ou autre, soit il va falloir mettre les mains dans le camboui et faire un script pour automatiser ça !


#3

@Biosman (sympa ce pseudo:) )

Je te recommande Kevin (@ksahin) il saura t’automatiser ça, et mieux qu’import.io !


#4

Hello Biosman,

De quel site s’agit-il ?
Je peux te montrer comment faire ça avec request et python, si tu veux :slight_smile:

C’est en tout cas un use case intéressant…


#5

Si le site que tu veux scrapper n’utilise pas d’ajax, scrapy est de loin le plus rapide si tu sais coder en python.

Tu peux gagner du temps en utilisant portia pour concevoir ton scraper.

import.io est vraiment pratique et hyper simple à utiliser mais si tu as vraiment des milliers de pages à scanner il risque de ne pas arriver au bout.

Si jamais j’ai vraiment besoin de passer par un navigateur pour scrapper, j’utilise Selenium piloté par python. (mais c’est toujours à condition de savoir coder en python)


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr