Bonjour Paul,
Merci pour la réponse, je réponds tardivement car j’ai essayé également plusieurs choses de mon coté.
Comment retirer les mots génériques ? Les possibilités sont infinies ?
Bonjour Paul,
Merci pour la réponse, je réponds tardivement car j’ai essayé également plusieurs choses de mon coté.
Comment retirer les mots génériques ? Les possibilités sont infinies ?
Le problème ca risque d’être les faux positifs ici je pense mais c’est une tres bonne idée
En vrai, les faux positifs tu peux en éviter plein , tu fais des règles par exemple avec les catégories google et les codes naf pour commencer à scorer , tu dois gérer pleins de petit truc comme les acronymes dans un fichier et l’autre si c est en full name , fuzzy matcher les raisons sociales… Y a quand même des règles à faire, mais bon c est facile , c est que du bon sens. Sur les score moins bon tu parses le site, ça représente environ 5% . Encore une fois si des mecs sont chauds on fait un truc en open source
Pour rafraichir la data c’est vers ces prix mais c’est plus 500 en tout cas
Sur les faux positifs, tu as le cas des sites qui remontent les siren des agences + hosters à prendre en charge. La solution qu’on a trouvé est d’envoyer ca à notre llm pour faire le tri dans les résultats. Sans ca tu te prends un mur
Avec un LLM au moins y a pas de sujet,
Mais en amont ça pourrait être aussi en algo avec liste des hoster pour supprimer les faux résultat et l’ordre dans lesquels sont donnés les SIREN / SIRET, souvent c’est la société en 1er si y en a plusieurs.
Le terme le plus proche du SIREN SIRET aussi, par exemple “conçu par”
L’IA est forte pour t’aider à dev ça, on a un extracteur de SIRET pour les sites Web qui nous aide à revalider d’autres infos obtenues ailleurs.
Et @Sonic ajouterai de check les SIREN SIRET pour savoir si celui d’une agence, agence Web (si ça n’est pas ce que tu vises)
Ça dépendra bien évidemment du volume/qualité/coût souhaité
@NRatal1 j’avais crée avant l’ia : rocketlead, à l’époque j’avais 1000 lignes rien que de regex … bien sur que ça fait partie des trucs a faire, les hébergeurs et les agences tu comptes les occurrences, tu les identifies avec leur code naf et tu fais un process spécifiques pour celle ci, bref c’est que du bon sens, maintenant avec l’ia, n’importe quel gogole peut faire ca.
Hello @Sonic,
je vais parler pour le segment que je connais très bien : le ecommerce.
J’avais la stratégie que tu décris il y a 2 ans.
C’est peut être valide sur la masse et avec un taux d’erreur acceptable mais pas pour les marchands en ligne en France (puis à l’international) ca ne suffit pas à retourner une data de qualité.
Le code NAF n’est pas un signal fiable pour catégoriser l’activité de l’entreprise dans ce secteur.
Ecarter un SIREN car x récurrence, n’est pas viable car 15% des entreprises qui vendent en ligne ont plusieurs boutiques. Quand aux hosteurs et agences, tu as une tripotée de “petits” acteurs qui ne remonteront qu”une fois et qui enverront un faux signal…..
et forcément ton client va te remonter toujours ceux sur lesquels tu te trompes jamais ceux qui sont ok. Mon recours au LLM est peut être aussi fin qu’utiliser un bazooka pour tuer une mouche mais il me garantit un output fiable et 0 retour client.
J’imagine qu’il s’agit donc d’un trade of qualité / rapidité / cout