Discussion création nouvel outil Scrapping

Hey guys, ca fait longtemps !

J’ai quasi fini de dev un outil agrégeant et matchant les bases SIREN, Boddacc, inpi, pj, maps, search, Linkedin… , dans le but de créer une base de donnée B2B française exhaustive le moins cher possible (road to 0 marge). J’ai quelques questions pour les plus aguerris d’entre vous :

Premier sujet : ca coûte cher en proxy… Est-ce que vous auriez des recos pour du proxy pas cher et performant, sur pour une utilisation en masse (1 à 2M de requêtes / mois en tout) ? Pour l’instant j’ai un pricing à 1M requêtes pour 100e / mois (je suis aussi en train de bien étudier les options de concurrences des requêtes pour ne surcharger aucun serveur) Merci !

Deuxième sujet, l’enrichissement des emails : je fais la technique basique du ping du domaine avec plusieurs combinaisons du nom/prénom, mais je me heurte à la dure loi du catch-all, pour lequel je n’ai pas trouvé de méthode pour le distinguer des ‹ vrais › emails. Les outils sur le marchés n’ont eux-mêmes pas les mêmes résultats sur les emails en catch-all et je n’ai trouvé que très peu de docu sur internet, des idées sur comment gérer ce problème ?

Troisième sujet, la fraîcheur de la donnée. J’ai 2 options : sois faire du ‹ live › (si vous voulez toutes les agences immo de france, je fais l’exercice de récupération de la donnée en live), ce qui engendre une longue attente pour le client et des frais supplémentaires pour moi mais une donnée très fraîche; sois j’actualise la donnée tous les X jours (15 ? 30 ?). A partir de quel moment la donnée est considérée comme ‹ fraîche › pour vous ?

Quatrième sujet (et dernier et puis j’arrête), le sujet LEGAL :cry: Pour l’instant, je fais principalement ca pour m’amuser (et aider des boîtes proches sur la lead gen). Est-ce que quelqu’un serait calé sur le fait de commercialiser ce genre de donnée ? Est-ce que le fait de faire un réel travail de cleaning, matching, etc. entre différentes bases permet de mettre un droit d’auteur différent sur la donnée, à la même manière que les comparateurs de prix ?

Ce projet, bien qu’un peu ambitieux n’a aucune prétention, si certains veulent discuter plus en détails n’hésitez pas ! Merci pour vos retours :slight_smile:

2 « J'aime »

Très cool comme projet.

My 2cts sur le sujet 3 car je n’ai pas trop d’insigths sur les 1 & 2.

Pour de la donnée au niveau du compte, selon moi un refresh hebdo / bi-mensuel est suffisant. Les infos des boites ne varient pas beaucoup d’une semaine sur l’autre

Sur ton sujet 4, tu utilises bien uniquement de l’open data (donnée publiquement disponible sur internet) ?

Hello ! Envoie moi un mp, je pourrai prendre qlq minutes pour te faire le listing :slight_smile:

2 « J'aime »

Pour le deuxième sujet, parfois un email peuvent trainer sur le site web, une fois le pattern detecté il n’y a plus qu’à le reproduire

Pour le 3ème sujet ça peut être une force aussi d’avoir les résultats en live, mais tu risque à terme d’avoir des problèmes de scalling.

Très curieux de suivre le projets si tu as des éléments à partager :slight_smile:

sujet intéressant, je me suis fait une boite à outils qui fait un peu tout çà, à petite échelle car je me focalise sur les demandes très ciblées, après si tu envisages une commercialisation, faut réfléchir à ce qui te démarque des autres saas de ce type (à part le prix :wink:), vu qu’il y en a déjà pas mal.

Même refresh hebdo par rapport à mensuel ca coûte 4x plus cher par mois en proxy. Tu penses qu’il y a un enjeux à 15 jours plutôt qu’à 30 ? Mon guess était à 30 jours c’était suffisant mais j’ai besoin d’autres avis
Pour le 4e sujet, c’est de l’« open data » dans le sens internet du terme, mais pas forcément de la donnée « libre ». Les api du gouvernement sont toutes ouvertes, mais pas google linkedin etc. Je m’étais renseigné pour savoir comment les comparateurs de prix de billet d’avions faisaient par exemple, et j’avais vu que si suffisamment de transformation était faite à la base de donnée, le droit d’auteur sur ces bases peut être récupérer et pas de risque légal…
En gros si je « télécharge » linkedin et que je le revends tel quel = illégal, mais si je fais de l’analyse et que je vends mon analyse = légal. Tu en penses quoi ?

Oui ! Après c’est difficile techniquement de différencier un email d’humain d’un email support qui trainerait sur le web… Si je fais le site example.com et que je choppe l’email ‹ [email protected] ›, c’est compliqué de détecter à 100% que ce n’est pas un email d’humain, et ne pas appliquer ce pattern pour les personnes trouvées non ? Idem si je trouve un pattern ‹ [email protected] ›, comment je sais que ‹ dupont › c’est le nom de famille et pas le prénom, sans devoir matcher avec toutes les bases des prénoms existant ? :sweat_smile:

Je suis très intéressé si tu connais d’autres outils qui proposent autant de bdd ! Je bosse dans le domaine depuis quelque temps, et j’avoue avoir toujours été déçu de la donnée proposée, surtout quand j’avais besoin de targetter à des niveaux plus faible que le NAF…

Partage ici (si tu peux) c’est intéressant comme sujet

1 « J'aime »

Honnêtement même refresh mensuel ça me parait correct mais après tout depend de quelle data on parle (typiquement quel serait les champs renvoyé)

Et si besoin tu peux toujours proposer une offre premium avec refresh hebdo

Sur ton sujet data, faudrait consulter un spécialiste, j’avais une expérience similaire dans un autre domaine (données d’annonces immo) et clairement tu avais un sujet si tu réutilisais les données telle quel mais avec de l’enrichissement, ma compréhension c’est que c’était autorisé

1 « J'aime »

Je suis très intéressé si tu connais d’autres outils qui proposent autant de bdd ! Je bosse dans le domaine depuis quelque temps, et j’avoue avoir toujours été déçu de la donnée proposée, surtout quand j’avais besoin de targetter à des niveaux plus faible que le NAF…

je ne connais que les outils qui sont fréquemment évoqués sur ce forum et donc listés dans la toolbox, sinon ce sont mes outils à moi, des scripts maison. En gros les outils c’est la grosse artillerie en général, qui vont bien marcher sur les grosses boites, ensuite les PME, artisans, etc … qui ne sont pas très visibles ou qui n’ont pas de nom de domaine, çà nécessite souvent des outils maisons pour aller chercher ailleurs que sur les pagesjaunes, google maps etc … .

1 « J'aime »

Yes c’est clair.
Après j’avais pensé aussi à une archi data suivante : si un utilisateur demande tous les ‹ garages automobiles › et qu’ils n’ont pas encore été générés dans la bdd, je le scrape en live et je les timestamp. Si le lendemain un autre user veut la même entrée, je check si les records existent et datent de moins de x jours et si oui alors je redonne la même donnée.
Ca me permettrait de pré-scrapper certain types business demandés (type artisans, agences, etc), et n’avoir à les scrapper qu’1 fois par période, et de pouvoir répondre à une demande moins habituelle automatiquement en live (l’utilisateur n’aura pas la donnée en direct mais un peu plus tard)

L’approche permettrait aussi d’historiser la donnée, et pourquoi pas faire des stats intéressantes au fil du temps (combien de temps met un business pour avoir une page google, quels infos sont remplies à quel moment, quel secteur est le plus exposé sur internet…) mais ca on verra !

Dis moi ce que tu en penses, je ne suis pas très clair :sweat_smile:

Tu penses à des outils du type societeinfo ? Parce que même eux je ne trouve pas qu’ils soient très bon pour récupérer toute la donnée des artisans qui ont une présence sur internet

Tu pourrais surement avec une liste de mot clé et https://genderize.io/

exemple :
1/ je récupère les emails [email protected] et [email protected]
2) en split l’email, je detecte support → Je le classifie en générique
3) je teste damien et dupont sur https://api.genderize.io/?name[]=damien&name[]=dupont (ou autre, pleins de modules python sont vraiment bon la dessus)
4) Si il y a suffisament de personne qui ont se prénom je le classifie en email direct

Après ça reste un draft ^^

2 « J'aime »

Très cool comme outil, je connaissais pas ! Ils utilisent les registres étatiques tu penses pour calculer les proba et le nombre de personnes qui l’ont ?

Je pense oui qu’ils utilisent des registrent étatique, mais surement pas dans tous les pays
Tu as aussi en module python gender-guesser · PyPI mais de mémoire il n’y a pas le compte des personnes nées

Félicitations pour ton projet ! Le plus difficile, c’est de rester résilient.

Je suis le développeur de RocketLead (B2B français avec l’open data + Google My Business), SiretInfo (pour la siretisation), ContactFinder… donc on est pile poile concurrent, mais c’est top au contraire, ça veut dire qu’il y’a de la demande

Je suis aussi prêt à te partager pas mal d’infos, et je suis plutôt d’accord avec toi : il faut proposer les prix les plus bas possible pour les SaaS, car ceux qui peuvent payer des montants élevés n’iront jamais vers ces solutions. Cela te fait un beau CV. La data devrait être rendue aussi accessible que possible.

Si tu veux quelques astuces, n’hésite pas !

Pour la SERP, tu as Autom et Serper.dev. Nous commercialisons également notre propre solution. C’est pareil pour les emails : nous avons une solution maison, et de mémoire, c’est 9 euros la stack technique pour 100 000 requetes (sans compter les coûts d’électricité).

Pour la partie légale, tu pourras en vivre confortablement. Après, il faudra faire des marges, mais si tu es étudiant, c’est bien d’éliminer les concurrents autour de toi (car si tu n’es pas capable de changer de stratégie, tu périras comme dans la nature).

4 « J'aime »

Oui je suis ce que vous faites ! C’est super quali, mais pourquoi ne pas aggréger + de bdd (d’autres types de bdd comme les commentaires, les tripadvisor, PJ, linkedin…)
Avec les mêmes méthodes que pour matcher un siret avec un GMB, tu peux matcher plus de donnée non ?
Pour la SERP j’ai un outil maison, ca coûte moins cher ! Mais hyper intéressant ta solution maison pour les emails, vous vous êtes faits des raspberry pour faire vos proxys ? Ou vous utilisez un service tiers ?

Pour la partie legal, je parlais plus du côté mise en demeure : est-ce que dans votre cas Google pourrait vous demander d’arrêter, si vous prenez bcp d’ampleur ? Et dans un niveau plus local, avec des bdd francaises, quels sont les risques ? Très chaud d’en discuter plus longuement :slight_smile:

Ok merci beaucoup, je vais regarder ca !

pour 2 raisons :

je ne vis pas du saaS et d’abo à 30 ou 100 balles mais de projet ou d’app custom, je ne veux pas en donner trop ( pour pas etre en concurrence avec le custom) . et aussi pour les questions de conformité. rajouter ce que tu dis surtout les pj c’est illegal
Rocket fonctionne avec aucun proxy, contactfinder si.

Aucune idée pour google, mais beaucoup de saas utilisent des api caché de google, microsft ou autre, leur biz est basé dessus. ce qui est bien c’est de taffer avec des étudiants, ca peut expliquer des traveaux de r&d.

Pour les bdd, on est souvent audité, cet été c’était cegid, pas de pbr quand tu utilses que l’open data et la data visible de google

1 « J'aime »