email scraping sur page web

Hello,

Quelle est la fourchette de prix pour une prestation d’email scrapping ?

J’aurais besoin de récupérer les emails d’une catégorie professionnelle pour une campagne d’emailing (prospects froids). Je voudrais indiquer les pages web sur lesquels je souhaite récupérer les mails référencés dessus, et le presta me les récupère.

Il y aurait des 100taines de pages web sur chacune une dizaine de mails.

Je peux le faire moi-même manuellement (ou au max, copier le texte de la page et avec une appli comme email extractor, récupérer les emails, mais ça va me prendre une vie entière).

Si vous avez une idée de pricing, je suis preneur.

Merci pour votre aide.

1 « J'aime »

Bonjour Myohack,

Le prix dépendra du volume et de la difficulté d’accès (nombre de pages sur lesquelles il faut accéder pour récupérer chaque email).

La difficulté varie pour chaque site web ciblé (faut-il créer un compte pour accéder aux données ?)
Et attention, la collecte de données personnelles est contrainte par le RGPD.

1 « J'aime »

J’ajouterai :

  • sur la centaine de pages, est-ce qu’elles sont formatées pareil ou bien est-ce que se sont des pages de sites différents ?
  • est-ce qu’il faut seulement les adresses e-mail ou bien d’autres données (nom, prénom, société…) structurées ?

Envoie la liste des pages (ou 4/5 représentatives) par MP et je te fais un pricing :wink:

1 « J'aime »

J’y suis intéressé moi-même. C’est quels genres de pages depuis lesquelles vous souhaitez obtenir des emails ?
Je suis sûr que @Morph peut vous aider.
Je veux plutôt trouver une solution à ce genre de problèmes et si j’en ai, je partagera.

1 « J'aime »

Non pas besoin de créer un compte pour accéder aux mails.
Pages de sites différents. Page Equipe ou Membres des laboratoires de recherche publique (Université, CNRS, INSERM, CEA, INRAE, INRIA …)
Je veux juste les emails.

Un exemple type de page : Membres | APEMAC

La difficulté est le chemin à parcourir pour arriver à la page « membres » sur chaque site web.

Dans l’exemple ci-dessus, il faut visiter le site Université de Lorraine => puis la page Recherche et Innovation => puis la page Laboratoires et infrastructures de recherche => puis Tous les laboratoires et pôles scientifiques de l’Université de Lorraine => puis dans BIOLOGIE, MÉDECINE, SANTÉ choisir dans APEMAC cliquer sur le lien pour ouvrir la page de présentation du laboratoire => puis cliquez sur le lien du site web du labo http://apemac.univ-lorraine.fr/ => puis cliquez sur la page membres pour accéder aux personnels et cliquez individuellement sur le nom de chaque personne pour enfin arriver la page de la personne pour accéder à son mail (qui parfois peut être sous form « nomdefamille @ nomdedomaine . edu » par zèle des informaticiens de l’Université).

En vrai si tu as déjà la liste des URL

Je peux voir de mon côté ce que ça donne, si tu as besoin seulement des mails et pas d’autre information, c’est jouable !
N’hésite pas à me MP

On peut aller au plus simple sans chercher affiner « équipe labo de recherche », en scrappant (si c’est possible), tous les emails ayant le nom de domaine @(universitéxouz).fr et les emails des instituts de recherche publique cnrs, inserm, inrae…

N’hésite pas à transmettre la liste des sites à scraper, cela sera plus simple pour nous de regarder cela (en mp)

Arrête avec ton MP, je cherche pas à me faire closer, mais à avoir une idée du prix pour la presta. Je ne cherche pas encore un presta, chaque chose en son temps :wink:

Tiens si tu veux tester, un exemple de page Membres | APEMAC
Le problème est qu’il faut cliquer sur chaque nom pour accéder à l’email. Si tu peux récupérer automatiquement tous les emails sur cette page, donne moi stp un pricing pour une page unique comme celle là Membres | APEMAC

Est-ce que tu as les urls des pages membres ou l’url de la home de chaque site ?
Est-ce que toutes les universités sont structurées de la même manière (page avec l’ensemble des membres, puis page membre avec adresse email en clair) ?
Je pense que la difficulté est surtout sur l’hétérogénéité des sites internet…

Pour juste cette page, ce n’est pas très long/compliqué, je pense qu’un gentil membre du forum (peut-être même moi) peut faire ça cadeau.
Mais pour 100 pages comme cela il y a un peu plus de travail (difficile à évaluer sans avoir toutes les urls).
Et peut-être même que le travail de chiffrage (regarder les urls, ou trouver les emails etc…) prendra plus de temps que le scrapping :frowning:

1 « J'aime »

Même si cela dépend du nombre de Lead qu’il y a par page, et de la difficulté de chacune d’entre elle, donc, cela sera à affiner, on devrait être autour de 2-3 € par page.

Sachant qu’il peut y avoir d’autres informations complémentaires sur les pages à attraper, qu’il pourrait être intéressant d’avoir aussi :slight_smile:

1 « J'aime »

Merci, ça me donne une idée pour mon calcul de cout total et donc arbitrer ma stratégie.

1 « J'aime »

Bonjour,
Pour ma part, je dirais plutôt que le prix dépendra plus du nombre de sites et de la complexité de ceux-ci que du nombre d’emails. Je tablerais pour un budget quasiment fixe de l’ordre de 600 EUR/site.

1 « J'aime »

600 € par site ?
Il en a plus de 100.

Les configurations semblent assez basiques et ne nécessitent pas forcément de logiciel payant ni beaucoup de temps. Si on prend un forfait global de 200-300 € pour la centaine de pages, c’est quand même bien plus réaliste et correcte

1 « J'aime »

Bonjour,

Je ne parle pas de 600 EUR/page mais 600 EUR/site…

1 « J'aime »

Si vous avez trouvé une solution à votre problème ?
autre que l’idée de sous-traiter la tâche à un tiers, si vous avez l’intention de le faire vous-même, je vous propose un outil - octoparse - qui mérite un essai.
Evidemment, vous pouvez obtenir les données gratuitement. Et si vous avez besoin d’un grand nombre de données et voulez qu’elles sont récupérées très rapidement, vous pouvez essayer le plan premium et utiliser le service cloud pour accélérer la vitesse de scraping.
Ici, je l’ai essayé basé sur l’url que vous donnez dans ce forum. Le suivant est une capture d’écran des résultats. S’il y a des blancs, c’est parce que l’email est à faute sur cette page.


Pour en finir, j’espère que cela vous aidera. :grinning: :smiley:

1 « J'aime »

Merci, je vais regarder cet outil de près ! :slight_smile:

Hello @Myohack tien cadeau de noël la liste du site que tu viens d’envoyer

Apemac email - Google Sheets

1 « J'aime »

J’ajouterai qu’il est intérdit de stocker et exploiter des données personnelles sans avoir au préalable récolté le consetement pour l’usage que vous comptez en faire.

Bon déjà c’est un problème, mais ce que beaucoup ignore c’est que des emails de type :

sont bien des données personnelles, car elles permettent d’identifier la personne. Seul les emails génériques ne le sont pas, ex : [email protected].

Pour en savoir plus je vous conseille de lire ces articles sur le RGPD, c’est bien vulgarisé

1 « J'aime »

Hello,

Pour la page Membres | APEMAC, franchement en 5 min grand max c’est fait, si tous les sites que tu as ont des hierarchisations similaires ce n’est pas bien compliqué, le plus long étant de parametrer la chose pour chaque site effectivement.

Je rejoins et je dirai 3e/page, vraiment grand max 500e les 100 pages.

N’hésite pas si tu as besoin de plus d’infos !

1 « J'aime »