SCRAPING - Qualibat

Hello je viens vers vous car en ce moment je cible des artisans et je me suis penché sur le cas de Qualibat = Entreprise correspondant au SIREN/Raison sociale - Qualibat

Certains ou certaines d’entre vous sont ils parvenus à scraper les mails téléphone et nom des artisans sur cette plateforme ?

Si oui auriez-vous des outils en particulier à me recommander afin de parvenir à mes fins ?

Merci d’avance et belle journée à vous,
VG

Hello Vivien,

Je viens de tester rapidement et en mode « bourrin », tu peux faire via Google un « site: » avec l’URL du site jusqu’a « resultat-de-recherche » + « Mail : », Scrapper le title, l’URL & la description , ouvrir le résultat dans un spreadsheet puis mettre des règles pour exporter le nom (facile, c’est dans le title), et exporter le mail et le téléphone (dans la description) via des formules.

Exemple ici pour scrapper : https://www.youtube.com/watch?v=jZ0EQYiiYq4&t=14s&ab_channel=JérémyCoelJérémyCoel

Sinon, le mieux serait via Puppeteer si tu gères le JS.

Bonne journée,

J

1 « J'aime »

Sinon, autre possibilité, scrapper les URLs via par Exemple DataMiner :
Exemple ici : https://www.youtube.com/watch?v=_ktEc-gY7rY&t=9s&ab_channel=JérémyCoelJérémyCoel

Puis avec TexAu (Sorte de PhantomBuster), t’as un « spice » qui permet de récupérer les mails + numéros de téléphone depuis des Urls fournies.

1 « J'aime »

Merci à toi Akwabon je m’y met de suite.

Ce listing t’interesse ? Si je parviens a mes fins je te fais passer ca en mp :wink:

Je pars sur du scrapebox :slight_smile:

hello je t’ai envoyé un DM @vivien_gaillard

Hey Vivien,

Je viens d’y jeter un oeil 1 min: les liens de TOUTES les pages détails, pour chaque artisan, sont présentes dans le code HTML de la page Entreprise correspondant au SIREN/Raison sociale - Qualibat :slight_smile:

Si tu ne vois pas tous les liens à l’écran c’est juste que c’est masqué et paginé par JavaScript, mais du coup tu pourras très facilement gérer ce site avec WebScraper, sans prise de tête !

2 « J'aime »

je l’ai scrappé il y a 3 mois avec Dataminer.
Tu peux aussi utiliser webscraper, c’est assez rapide

1 « J'aime »

Merci pour l’info :slight_smile:

Merci à toi ScrapingExpert :smiley:

Les coordonnées des artisans éligibles RGE sont aussi disponibles en opendata ici: Liste des entreprises RGE - data.gouv.fr

1 « J'aime »

Merci beaucoup !

Hello Vivien !
Si tu as réussi, je serais intéressé par cette liste :slight_smile:
Possible de la partager en mp stp ?

les url des pages via google a scrapper :
https://www.google.com/search?q=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&rlz=1C1GCEA_enFR889FR889&sxsrf=ALeKk02Jw7gpP_OBwbML7t90WNTU2J7nmA%3A1622730297314&ei=Oea4YLnWEo2blwTUoa7QCg&oq=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&gs_lcp=Cgdnd3Mtd2l6EANQiB5YiB5gkS9oAXAAeACAAawBiAHeAZIBAzEuMZgBAKABAaoBB2d3cy13aXrAAQE&sclient=gws-wiz&ved=0ahUKEwj51r-31fvwAhWNzYUKHdSQC6oQ4dUDCA4&uact=5

ou via les sitemap tu as déjà la liste des url à scrapper : https://www.qualibat.com/sitemap_index.xml

google ne sort pas tout les résultats, il y a 45000 non rge et 74000 rge à peut près et le sitemap ne contiens pas les urls des fiches artisant. Le plus simple c’est de récupérer les corps de métiers de qualibat et de scrappé par code postal

1 « J'aime »

[quote=« Nicolas_Laustriat, post:14, topic:23314 »]
https://www.google.com/search?q=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&rlz=1C1GCEA_enFR889FR889&sxsrf=ALeKk02Jw7gpP_OBwbML7t90WNTU2J7nmA%3A1622730297314&ei=Oea4YLnWEo2blwTUoa7QCg&oq=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&gs_lcp=Cgdnd3Mtd2l6EANQiB5YiB5gkS9oAXAAeACAAawBiAHeAZIBAzEuMZgBAKABAaoBB2d3cy13aXrAAQE&sclient=gws-wiz&ved=0ahUKEwj51r-31fvwAhWNzYUKHdSQC6oQ4dUDCA4&uact=5
[/quote
@ScrapingExpert je déterre ce sujet , je ne vois pas les liens ? Est ce dû aux MAJ ou à mes lunettes :disguised_face:

Hello @jarodfrance , 2 ans après je t’avoue que je ne sais pas :slight_smile:

1 « J'aime »

hello,

il sont mis en noindex les résultats de recherche et sortie de leur sitemap XML les pages concernées… faut donc maintenant crawler le site je pense, il ont peut etre refait une versiond e site ausii

1 « J'aime »