Récupérer email journaldesfemmes

#1

Bonjour à tous,
Je souhaite lancer une campagne publicitaire pour notre nouveau site internet, pour cela j’ai penser à scraper les site annuaire pour les crèches et collectivités.

Ma première cible serait:
https://www.journaldesfemmes.fr/maman/creches/

l’avantage: url des crèche est un numéro donc facile a trouver meme si cela est séquentiel :wink:
exemple: https://www.journaldesfemmes.fr/maman/creches/accueil-familial/creche-3628

Je souhaite apprendre le scraping et je suis entrain de tester avec import.io après un echec avec webscraper.

Avez vous une solution pour scraper ou récupérer efficacement des email sur ce genre de site internet ?

Je serais prêt a payer une formation ou des tutoriels car cela pourrait mettre d’une grande aide dans les mois futur :slight_smile:

Merci beaucoup pour votre aide, votre partage de savoir et de vos connaissance mise à disposition de tous ! have fun :wink:

0 Likes

#2

Si tu es en mesure d’obtenir la liste complète des URLs des pages crèches, alors tu peux utiliser cette liste (en CSV par exemple) pour l’injecter en tant qu’input dans Dataminer

Ou alors, créer une fausse page HTML contenant toutes ces URLs sous forme de liens <a href="https://www.journaldesfemmes.fr/maman/creches/micro-creche-les-souris-vertes-de-sainte-neomaye/creche-7850">MICRO-CRÈCHE LES SOURIS VERTES DE SAINTE NEOMAYE</a> , et à partir de cette page HTML, créér un scénario avec Webscraper, qui ira cliquer sur chacun des liens pour extraire les infos depuis chaque page crèche.

0 Likes

#3

Salut scraping expert, comment obtenir la liste complète des URLs des pages crèches ? screaming frog ?

J’ai réussi à extraire avec import.io mais qu’une partie

0 Likes

#4

C’est toi même qui a donné la solution, simplement en incrémentant l’ID à la fin de l’URL :slight_smile:

En gros, tu prends ce pattern:

https://www.journaldesfemmes.fr/maman/creches/-/creche-XXXX

En faisant varier XXXX par l’un des chiffres inclus dans la séquence 0-10 000 par exemple (faudrait trouver le min et le max)

0 Likes

#5

oui sauf que entre temps je viens de voir que c’est plus complex que prévus… en effet parfois ca change et j’ai pu récupérer que 300 mail comme ca et en plus les mails sont en doublon xD

0 Likes

#6

je partage ma découverte: site:www.site.fr/xxx/xx “xxx”"@orange.fr"
par exemple permet sur google de découvrir tout les mail en orange.fr pour ce qui est de faire du volume avec ceci…

0 Likes

#7

A ce stade, si tu veux récupérer l’intégralité des données, soit il faudrait maîtriser à 100% WebScraper, soit savoir coder pour faire ton propre robot d’extract…

Il te reste à te poser la question: veux tu passer beaucoup de temps là dessus, ou bien déléguer cette tâche, car à priori ce n’est pas sur l’automatisation ou sur la partie extraction que tu vas apporter de la plus-value, tu risques d’y passer du temps, temps que tu pourrais mettre au profit des sujets que tu maitrises vraiment et où tu apportes de la valeur ajoutée.

0 Likes

#8

ok merci beaucoup, pourrais tu faire cette prestation ou serais tu sur quel site je pourrais trouver cela ?

J’ai réussi avec Parsehub mais c’est grave long en free et limité à 200 link pour illimité c’est payant donc si je trouve une alternative c’est cool

0 Likes

#9

De manière générale, je code tous mes propres scripts d’extraction. Je pêche clairement coté tools déjà existants, ce n’est pas mon data.

Je saurais le faire avec un outil comme Dataminer, mais il limite aux 500 premières pages (gratuites), au delà, il faut payer.

J’ai bien un framework maison qui fait le job, mais je préfére laisser la place aux plus smarts qui connaissent l’outil déjà existant qui ferait le job pour rien, si ça existe :slight_smile:

1 Like

#10

ok ca marche merci, je vais voir si je trouve quelqu’un qui pourrait me le faire. J’ai perdu trop de temps la dessus.

0 Likes

#14

0 Likes

#15

Salut @Papouille,
Sans vouloir faire de la comm pour notre outil, tu peux facilement extraire la liste des crèches dont nous disposons des contacts sur Societeinfo.com (et il y’en a pas mal…)

Alex

0 Likes

#16

Salut Alex, merci pour ta participation, si ton outil peut m’avoir une base mail de qualité ce m’intéresse

0 Likes

#17

Tu auras besoin de plus de 10 000 crédits, les 7K crédits étant déja à 299€ HT.

0 Likes

#18

Non pas besoin d’autant. En effet, nous décomptons 1 crédit par SIREN même s’il y’a plusieurs contacts :wink:

0 Likes

Team : CamilleBriceJulienVivianBorisXavierSteven.