Magnifique retour d’expérience ! Merci pour le partage !
Bonjour, je suis intéressé. Quelles sont les conditions ?
Hello, je suis aussi intéressé s’il te plaît
bonjour à tous, je re-déterre ce post car j’ai besoin de la liste de tous les mandataires immo, mail + tel, je peux bien sur scraper leurs sites mais si quelqu’un a déjà la liste et me propose çà à un tarif raisonnable (ou en contrepartie d’une autre presta) je suis preneur, on peut discuter de çà en MP
Hello DJousto,
J’ai scrapé récemment toutes les agences immo, que j’ai fait passé sur email Verify, ça fait une DB de 11.500 contacts et je peux te fournir également 2500 contacts de chez efficity.
Je te laisse me faire une proposition
Bonne journée
j’ai eu pas mal de propositions, merci pour la réactivité, j’ai trouvé ce qu’il faut, en scrapant une partie moi même, bonne journée à tous
Bonjour,
Est-ce qu’on peut discuter en MP?
Oui bien sur, je suis disponible quant tu veux
Bonjour,
Est-ce qu’on peut se parler en mp?
Hello Colin,
Merci pour ce message qui m’est d’une grande aide, étant actuellement en mission sur le même sujet.
NopecCha est une véritable pépite ! 1000x merci
Rapide question : tu utilisais quel outil de web scraping ? J’utilisais Bardeen depuis peu, très efficace, mais horriblement cher quand on fait du volume !
Merci d’avance
Bonjour @chiquitos. J’avais utilisé Web Scraper en local, version gratuite avec simplement le plugin firefox / chrome. Cela marche très bien. Il faut bien utiliser les options de pagination (https://www.youtube.com/watch?v=x8bZmUrJBl0) et/ou les options d’import / export de schéma pour intégrer toutes les urls dans une même requête (Add multiple start URLs | Web Scraper How To).
Heureux d’apprendre que NopeCHA fait toujours le taf ! Je n’y ai pas touché ces derniers mois…
Bonjour je suis intéressé par la liste des agence immobilière de la France.
Salut @Colin,
Je me permets de revenir vers toi car j’ai quelques difficultés avec le process :
- quand je scrap les fiches pro de la CCI, il n’y a pas l’information de SIREN, j’ai juste la dénomination de la societe et lorsque je fais l’enrichissement via phantom buster, les domaines trouvés ne sont pas très quali (beaucoup de perte: bcp de lignes où le domaine est « pappers »,« societe.com »,« kompass » etc.
- Sur le peu de domaines que je trouve, lorsque je passe le fichier pour enrichissement (tests effectués sur dropcontact et enrow), il ne trouve qu’une petite partie des mails.
je me retrouve avec un taux d’enrichissement super faibe.
es-tu passé également par ces étapes ?
Merci d’avance !
Bonjour @chiquitos . Bon, désolé, peut-être que 20 jours plus tard, tu as trouvé ton bonheur ! Sinon :
- le numéro siren sur chaque carte professionnelle est indiqué par le terme « N° unique d’identification » comme ici par exemple.
- ton module de détection des noms de domaine sur Phantombuster te permet d’inscrire une liste d’exclusion de résultats. Il faut y ajouter tous les sites de type annuaire en ligne, vérif, etc. Un petit aperçu sur l’un des derniers Search Domain effectué par ici avec en liste d’exclusion :
annuaire-entreprises.data.gouv.fr
data.gouv.fr
fr.kompass.com
kompass.com
entreprises.lefigaro.fr
lefigaro.fr
pappers.fr
annuaire-entreprises.com
score3.fr
societe.com
cci.fr
btob.europages.com
europages.fr
societeinfo.com
linkedin.com
nomination.fr
infonet.fr
b-reputation.com
manageo.fr
sirene.fr
societeamission.com
comersis.fr
rubypayeur.com
facebook.com
pagesjaunes.fr
cylex-locale.fr
verif.com
fr.mappy.com
mappy.com
yelp.com
impayes.com
az-france.com
hoodspot.fr
vraimentpro.com
118000.fr
annuaire.118712.fr
118712.fr
gowork.fr
fr.indeed.com
indeed.com
m-habitat.fr
telephone.city
commerce.e-pro.fr
e-pro.fr
hellowork.com
industrie.usinenouvelle.com
usinenouvelle.com
houzz.fr
paysagiste.info
pagespro.com
123pages.fr
yellow.place
meilleur-artisan.com
ellisphere.fr
infogreffe.fr
artisan-en-ligne.com
lesentreprisesdupaysage.fr
fleurfrance.com
monartisan.info
le-site-de.com
xerfi.com
devisjardin.fr
paysagisteo.fr
mes-magasins.com
etc.
Et donc ne lancer l’enrichissement que lorsque les domaine ssont validés pour augmenter le taux.
Bon courage !
Attention avec la cci, on est entrain de le scraper comme des cochons actuellement pour récupérer les dates de renouvellement des cartes pro… on a fait down le site ce matin . on envoie 200.000 siren dans les requêtes.
le site est protégé par cloudflare mais facile a passer.
Mais ne soyez pas trop gourmand style 10 requetes toutes les 30 secondes
ca fait un département par jour grossierement, le script ce fait en 2 étapes
@Colin Au top, merci pour la précision, tu gères ! Je
Effectivement, j’ai trouvé une solution alternative (je suis allé scrap les infos des annuaires de la FNAIM et de l’UNIS) que j’ai enrichis ensuite.
Mais pour le prochain listing, je retente avec les exclusions dans PhantomBuster, et les SIREN, merci pour le partage.
@Sonic Effectivement j’ai eu le meme souci avec la CCI (a mon echelle biensur lol) mais j’ai du mettre un temps de delay un peu plus long que d’hab.
Je profite que tu sois la pour te remercier ! Je suis client rocketlead et on m’a fait un geste pour que j’utilise siretinfo, c’est bien sympa ! Je suis en train de test l’outil, ca m’a l’air bien pratique ! Au plaisir d’échanger avec toi
Je suis interessé. Merciiiiii (L)
Il a tout compris, c’est absolument comme ça qu’il faut réfléchir.
Hello, j’ai créé un outil qui fait exactement ce tu veux il me semble ! J’ai créé un scrapper en python qui fusionne les données de SIRENE (donc societe.com, verif etc.) avec celles de Pages Jaunes et Google Maps. Ca te permet d’avoir une vraie liste de toutes les agences immo déclarées en France.
Si tu es toujours intéressé, contacte moi. Je suis encore en phase de test et je cherche des uses case intéressants pour améliorer le code
Très chaud d’essayer par ici <=