Je vous avoue que je n’ai pas trop le temps c’est pourquoi je fais appel à la meilleure communauté de France.
Je voudrais scrapper cette liste d’exposant avec :
Le nom de l’exposant
Le nom du stand
Les informations importantes quand il y en a (adresse mail, tel, website url)
By the way, si vous pouvez filmer votre façon de faire pour que je puisse apprendre et le faire par moi même la prochaine fois.
Alors je ne screenrecord pas, mais dans ce cas précis voici une approche pour novice assez simple à mettre en oeuvre (et cela peut bien entendu marcher pour pas mal de website). J’ai fait quelques screenshot en essayant de faire au plus simple en mode noob ^^’ .
2 - Attraper les url de chaque exposant :
on dl la liste, si on sait pas trop manipuler on fait un copier / coller en brut et on nettoie pour avoir seulement les url des cibles
(sur gsheet cela se fait en quelques secondes (minutes), si on est level 1 en tableur on utilisera simplement le tri, fonction supp de ce qui nous intéresse pas, et remplacer par du vide les ou autres …)
3 - Approche no/low code (ici j’ai pris phantom buster car je reste quand même fan de ce vieux machin)
C’est un peu ici que les gens bloquent
On ouvre en random une url Sonup - Pharmagora Plus 2023
Et on cherche ce que l’on veut avaler ici je fais qu’une recette, le site web.
On va dans les outils de dév (sur mac command+option+i)
On utilise le sélectionner d’éléments à inspecter et on trouve cette ligne Visit website → c’est par ici qu’on devrait choper l’info
on utilise les 3 petits, et on copie le sélectionneur en espérant que ce soit le même pour toutes les pages :
body > div.site > div.l-content > main > div > div > div > div.m-exhibitor-entry__item.js-library-list.js-library-item.js-library-entry-item > div.m-exhibitor-entry__item__body > div.m-exhibitor-entry__item__body__contacts > div.m-exhibitor-entry__item__body__contacts__additional > div > div > a
ensuite go sur PB on utilise le phantom Web element extractor et on suit le tuto que je vais pas faire.
Et hop on obtient les noms de domaines de la liste d’url de notre google sheet (on peut cumuler plein de recette, j’avais d’ailleurs fait une mauvaise recette en première ligne).
Voila en espérant que cela donne envie de s’y mettre en DIY… et toujours être dans une posture de die & retry.
Merci à toi @incubateur_BdM ! C’est super cool de ta part !
je me permets de compléter le process
Dans son cas précis, il peut y avoir des liens, adresses mail ou numéro de téléphone directement dans la
m-exhibitor-entry__item__body__description (dans la boite de texte)
Il y faut extraire les infos de ce bloc si elles s’y trouvent donc passer par un mail extractor (check-mail, zapier ou python pour les plus fous ) pour enrichir le base de donnée.
On pourrait aussi passer par Captain Data ou un autre outil d’enrichissement pour automatiser tout ça le temps d’un petit café