Scrapping salon

Hello les gars/meufs,

Je vous avoue que je n’ai pas trop le temps c’est pourquoi je fais appel à la meilleure communauté de France.
Je voudrais scrapper cette liste d’exposant avec :

  • Le nom de l’exposant
  • Le nom du stand
  • Les informations importantes quand il y en a (adresse mail, tel, website url)

By the way, si vous pouvez filmer votre façon de faire pour que je puisse apprendre et le faire par moi même la prochaine fois.

Link du site : Exposer au salon PharmagoraPlus 2023

See you !

J’ai un petit doute: c’est une prestation payante ou gratuite que tu cherches ?

Salut Julo33 :v:t3: !

c’est pourquoi je fais appel à la meilleure communauté de France.
c’est trop chou :smirk:

Il te faut un extracteur dynamique !
l’idée serait que tu le fasse toi-même. C’est très rapide à faire et franchement, tu pourrais y prendre goût :slight_smile:

webscraper.io et il me semble même que ça resterais dans le forfait gratuit.

DW
Denis Rybalkine

On promouvoit l’entraide non ? :grin: Gratuit ça m’arrangerait

J’ai regardé Web Scraper mais ça m’a l’air bien compliqué. Tu ne veux pas m’expliquer ahahah ?

si tu veux envois ton mail je t’envois la liste scrapper directement

Dans ton cas c’est qu’une histoire de sélecteur. Tout est détaillé ici :
Web Scraper intro tutorial

Si jamais tu n’y arrive pas, je te fais la liste complète avec :

  • Société (+ leurs contact internes avec les mails pro, linkedin…)
  • Stand/area
  • Site web
  • Réseaux sociaux
  • Mails
  • Téléphones

Le tout dans un Notion super stylé et prêt à l’emploi
[email protected]

je veux bien que tu me montres ça s’il te plait

[email protected]

Hello

Alors je ne screenrecord pas, mais dans ce cas précis voici une approche pour novice assez simple à mettre en oeuvre (et cela peut bien entendu marcher pour pas mal de website). J’ai fait quelques screenshot en essayant de faire au plus simple en mode noob ^^’ .

1 - chercher un sitemap
https://www.pharmagoraplus.com/sitemap.xml
on regarde un peu où on pourrait trouver les exposants
https://www.pharmagoraplus.com/__media/sitemap_exhibitors.xml
à priori c est assez frais entre 22 / 23

2 - Attraper les url de chaque exposant :
on dl la liste, si on sait pas trop manipuler on fait un copier / coller en brut et on nettoie pour avoir seulement les url des cibles
(sur gsheet cela se fait en quelques secondes (minutes), si on est level 1 en tableur on utilisera simplement le tri, fonction supp de ce qui nous intéresse pas, et remplacer par du vide les ou autres …)

3 - Approche no/low code (ici j’ai pris phantom buster car je reste quand même fan de ce vieux machin)
C’est un peu ici que les gens bloquent

On ouvre en random une url Sonup - Pharmagora Plus 2023
Et on cherche ce que l’on veut avaler :slight_smile: ici je fais qu’une recette, le site web.
On va dans les outils de dév (sur mac command+option+i)
On utilise le sélectionner d’éléments à inspecter et on trouve cette ligne
Visit website → c’est par ici qu’on devrait choper l’info
on utilise les 3 petits, et on copie le sélectionneur en espérant que ce soit le même pour toutes les pages :

body > div.site > div.l-content > main > div > div > div > div.m-exhibitor-entry__item.js-library-list.js-library-item.js-library-entry-item > div.m-exhibitor-entry__item__body > div.m-exhibitor-entry__item__body__contacts > div.m-exhibitor-entry__item__body__contacts__additional > div > div > a

ensuite go sur PB on utilise le phantom Web element extractor et on suit le tuto que je vais pas faire.

Et hop on obtient les noms de domaines de la liste d’url de notre google sheet (on peut cumuler plein de recette, j’avais d’ailleurs fait une mauvaise recette en première ligne).

Voila en espérant que cela donne envie de s’y mettre en DIY… et toujours être dans une posture de die & retry.

++




2 « J'aime »

Merci à toi @incubateur_BdM ! C’est super cool de ta part !
je me permets de compléter le process :bookmark_tabs:
Dans son cas précis, il peut y avoir des liens, adresses mail ou numéro de téléphone directement dans la

m-exhibitor-entry__item__body__description (dans la boite de texte)
Il y faut extraire les infos de ce bloc si elles s’y trouvent donc passer par un mail extractor (check-mail, zapier ou python pour les plus fous :face_with_peeking_eye:) pour enrichir le base de donnée.

On pourrait aussi passer par Captain Data ou un autre outil d’enrichissement pour automatiser tout ça le temps d’un petit café :coffee:

Oui tout a fait… Après avec phantombuster pour les noob on peut rester dessus pour faire tout ça. Après à chaque site sa besogne :smiling_face_with_tear:

2 « J'aime »

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.