Scraping annuaires

Younes-Nety · Février 13, 2024, 1:35

Bonjour, je souhaite scraper un annuaire rempli de leads dans ma cible, mais le problème, c’est que je ne peux pas utiliser Instant Data Scraper car il ne scrape que les noms d’entreprises. Or, je souhaite également obtenir les noms de domaine, mais pour cela, il faut cliquer sur chaque page entreprise dans l’annuaire.

Si vous avez un moyen gratuit d’obtenir les noms de domaine à partir des noms d’entreprise, je suis preneur.

golem105629 · Février 13, 2024, 1:58

Hello web scraper.io est fait pour ça. C’est gratuit et assez facile à prendre en main en suivant ce tuto https://www.youtube.com/watch?v=-cxNhoVufEo

DEW-Automatisation · Février 13, 2024, 2:06

J’ai fait un tutoriel de scraping avec Browser Automation Studio il y a quelques jours, ça peut peut-être fonctionner avec ton annuaire : https://youtu.be/Kmus8qnvHEE

Tu peux peut-être récupérer tous les liens d’entreprise dans le sitemap.xml du site pour gagner du temps dans ton scraping.

Morph · Février 13, 2024, 2:37

Si les liens sont présents dans l’annuaire en question il vaut mieux les récupérer à la source plutôt que d’essayer de lier un nom de domaine au nom de l’entreprise que tu as scrappé… Cela va polluer tes données avec des mauvais matchings alors que tu aurais pu récupérer l’info exacte.
Donnes le lien de l’annuaire pour des réponses plus pertinentes (ici ou en MP).

etal · Février 16, 2024, 8:53

Au lieu d’apprendre Python pour yield ta page individuelle avec Scrapy ou mettre dans une asyncio.Queue(), tu préfères t’atteler à un des problèmes les plus difficiles du game des SaaS qui font du recoupement entre le répertoire Sirene et leur site internet potentiel pour contourner la difficulté apparente mdr