SCRAPING - Qualibat

vivien_gaillard · Mai 22, 2021, 1:34

Hello je viens vers vous car en ce moment je cible des artisans et je me suis penché sur le cas de Qualibat = Entreprise correspondant au SIREN/Raison sociale - Qualibat

Certains ou certaines d’entre vous sont ils parvenus à scraper les mails téléphone et nom des artisans sur cette plateforme ?

Si oui auriez-vous des outils en particulier à me recommander afin de parvenir à mes fins ?

Merci d’avance et belle journée à vous,
VG

Akwabon · Mai 22, 2021, 9:54

Hello Vivien,

Je viens de tester rapidement et en mode « bourrin », tu peux faire via Google un « site: » avec l’URL du site jusqu’a « resultat-de-recherche » + « Mail : », Scrapper le title, l’URL & la description , ouvrir le résultat dans un spreadsheet puis mettre des règles pour exporter le nom (facile, c’est dans le title), et exporter le mail et le téléphone (dans la description) via des formules.

Exemple ici pour scrapper : https://www.youtube.com/watch?v=jZ0EQYiiYq4&t=14s&ab_channel=JérémyCoelJérémyCoel

Sinon, le mieux serait via Puppeteer si tu gères le JS.

Bonne journée,

J

Akwabon · Mai 22, 2021, 9:54

Sinon, autre possibilité, scrapper les URLs via par Exemple DataMiner :
Exemple ici : https://www.youtube.com/watch?v=_ktEc-gY7rY&t=9s&ab_channel=JérémyCoelJérémyCoel

Puis avec TexAu (Sorte de PhantomBuster), t’as un « spice » qui permet de récupérer les mails + numéros de téléphone depuis des Urls fournies.

vivien_gaillard · Mai 22, 2021, 12:06

Merci à toi Akwabon je m’y met de suite.

Ce listing t’interesse ? Si je parviens a mes fins je te fais passer ca en mp

vivien_gaillard · Mai 22, 2021, 12:44

Je pars sur du scrapebox

Kev1 · Mai 22, 2021, 5:19

hello je t’ai envoyé un DM @vivien_gaillard

ScrapingExpert · Mai 23, 2021, 4:41

Hey Vivien,

Je viens d’y jeter un oeil 1 min: les liens de TOUTES les pages détails, pour chaque artisan, sont présentes dans le code HTML de la page Entreprise correspondant au SIREN/Raison sociale - Qualibat

Si tu ne vois pas tous les liens à l’écran c’est juste que c’est masqué et paginé par JavaScript, mais du coup tu pourras très facilement gérer ce site avec WebScraper, sans prise de tête !

Lolonai · Mai 24, 2021, 2:15

je l’ai scrappé il y a 3 mois avec Dataminer.
Tu peux aussi utiliser webscraper, c’est assez rapide

vivien_gaillard · Mai 25, 2021, 12:38

Merci pour l’info

vivien_gaillard · Mai 25, 2021, 12:39

Merci à toi ScrapingExpert

Wyatt · Mai 26, 2021, 10:32

Les coordonnées des artisans éligibles RGE sont aussi disponibles en opendata ici: Liste des entreprises RGE - data.gouv.fr

vivien_gaillard · Mai 26, 2021, 10:33

Merci beaucoup !

Thom4s · Mai 28, 2021, 10:01

Hello Vivien !
Si tu as réussi, je serais intéressé par cette liste
Possible de la partager en mp stp ?

Nicolas_Laustriat · Juin 3, 2021, 2:27

les url des pages via google a scrapper :
https://www.google.com/search?q=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&rlz=1C1GCEA_enFR889FR889&sxsrf=ALeKk02Jw7gpP_OBwbML7t90WNTU2J7nmA%3A1622730297314&ei=Oea4YLnWEo2blwTUoa7QCg&oq=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&gs_lcp=Cgdnd3Mtd2l6EANQiB5YiB5gkS9oAXAAeACAAawBiAHeAZIBAzEuMZgBAKABAaoBB2d3cy13aXrAAQE&sclient=gws-wiz&ved=0ahUKEwj51r-31fvwAhWNzYUKHdSQC6oQ4dUDCA4&uact=5

ou via les sitemap tu as déjà la liste des url à scrapper : https://www.qualibat.com/sitemap_index.xml

Androsyn · Juin 3, 2021, 7:30

google ne sort pas tout les résultats, il y a 45000 non rge et 74000 rge à peut près et le sitemap ne contiens pas les urls des fiches artisant. Le plus simple c’est de récupérer les corps de métiers de qualibat et de scrappé par code postal

jarodfrance · Avril 6, 2023, 9:18

[quote=« Nicolas_Laustriat, post:14, topic:23314 »]
https://www.google.com/search?q=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&rlz=1C1GCEA_enFR889FR889&sxsrf=ALeKk02Jw7gpP_OBwbML7t90WNTU2J7nmA%3A1622730297314&ei=Oea4YLnWEo2blwTUoa7QCg&oq=site%3Awww.qualibat.com%2Fresultat-de-la-recherche%2F&gs_lcp=Cgdnd3Mtd2l6EANQiB5YiB5gkS9oAXAAeACAAawBiAHeAZIBAzEuMZgBAKABAaoBB2d3cy13aXrAAQE&sclient=gws-wiz&ved=0ahUKEwj51r-31fvwAhWNzYUKHdSQC6oQ4dUDCA4&uact=5
[/quote
@ScrapingExpert je déterre ce sujet , je ne vois pas les liens ? Est ce dû aux MAJ ou à mes lunettes

ScrapingExpert · Avril 6, 2023, 9:32

Hello @jarodfrance , 2 ans après je t’avoue que je ne sais pas

Nicolas_Laustriat · Avril 6, 2023, 9:43

hello,

il sont mis en noindex les résultats de recherche et sortie de leur sitemap XML les pages concernées… faut donc maintenant crawler le site je pense, il ont peut etre refait une versiond e site ausii