Idée pour trouver des canaux en propre sur une cible de restaurants

Bonjour à tous,

Je cherche une solution pour rechercher parmi une liste d’URL tous les sites qui disposent d’un service de livraison avec une flotte de livreur « privée ».

Actuellement, j’ai trouvé une solution mais pas assez précise car elle est basée sur la recherche de mots clés (« livraison », « commande en ligne », etc) sur les pages des URL. Malheureusement cette technique n’est pas ultra précise car il suffit que la personne marque sur son site « pas de livraison » ou autre, et ça prend quand même en compte dans le script comme un résultat positif.

De plus, ça détecte aussi les sites qui font de la livraison avec des plateformes comme UberEats etc alors que je veux que ça me retourne une valeur seulement quand les restaurants ont un service de livraison en « propre » (leur propre flotte de livraison).

Avez-vous des idées ?

Ca semble être compliqué de rentrer dans ce genre de trie, après pourquoi ne pas shooter en masse les restaurants et voir ce que ça donne ?

Effectivement, je ne pense pas non plus que ça soit possible. J’ai déjà shooté les restaurants en masse, c’est pas incroyable mais pas déconnant. Juste j’ai pas mal de faux positif à cause de la présence du mot « livraison, commander en ligne, etc… » pour de la livraison en marketplace (UberEats, Deliveroo, etc.).

C’est juste pour savoir si certains étaient déjà tombés sur ce genre de problématique et s’il y avait eu une solution !

Pour faire de la recherche par champs sémantique de qualité il faut que tu arrives a stocker via puppeteer par exemple le contenu des pages ( si beaucoup utilises du nosql comme mongodb) et ensuite utiliser les regex

Un exemple concret : je devais identifier les épiceries fines qui vendent du caviar.
Dans ce cas trouver toutes les marques de caviar, exclure les déchets style caviar d’aubergine…
Sur une base d’ 1 millions2 urls ( soit environ 10 millions de pages), réduire aux sociétés qui sont des épiceries via le code naf … une fois que tu montes ce type de système tu es capable de lancer des recherches et avoir des résultats en quelques minutes. cela a énormément de valeurs pour nos clients, c

Salut Sonic, merci pour ta réponse.
Serait-il possible d’avoir un exemple plus visuel de comment cela s’imbrique ?

oui
ma méthodologie dans les grandes lignes
récupération de l’open data : sirene, bodaac, imr…
mise à plat du contenu
récupération des sites de l’afnic
scraping du contenu de chaque page web des entreprises ( identification d’une clé unique : siret par exemple)
pour les sites qui ne sont pas en .fr ( essayer des scripts pour trouver à partir du nom de la société et ou de la marque les sites en . com)

matcher les sites web ( et le contenu) avec les données open data
après c’est easy de récuperer des infos par champs sémantiques.
Difficulté 2/5, c’est un peu long à faire.

Je n’arrive pas à voir à quel moment tu arrives à comprendre qu’un site dispose de sa propre flotte de livraison ou passe par des marketplace ?

Salut,

c’est la le but de la recherche sémantique avec les regex ( ne pas oublier les exclusions comme « pas de livraison »)

Je te prends un exemple, un jour je devais trouver les épiceries fines, cavistes … qui vendent du caviar.
il faut prévoir une petite bibliothèque des marques ( béluga, …) , les exclusions comme caviar d’aubergines.

tu vois ?

rechercher les paterns des sites qui sont dans ta cible, et ne dit pas qu’il n’ya pas de patern, il y’a toujours des paterns, tu repères les similitudes sur une dizaine de sites. :slight_smile:

Après tu peux peut être trouver un dev qui fait cela ici, si tu ne le sens pas.

Salut @Sonic,

Merci pour tes explications, mais ce que tu me dis c’est dans le cas où je n’ai pas encore de base de restaurant. J’ai déjà une base actuellement, je souhaite juste repérer ceux qui disposent d’un canal de livraison en propre !