Scraper des informations sur des entreprises - Recherche expert

Bonjour à tous!

Nous avons besoin de faire la récolte des noms d’établissements, adresses postales, email, numéros de téléphone (+ fax), personne de contact - idéalement dans la direction, site web spécifique à l’établissement, taille de l’entreprise, des entreprises mentionnées sur les sites webs suivants:

et les membres ici:

https://cees.ch/fr-fr/membres/liste-des-membres.html

La plupart des données (par exemple la taille de l’entreprise) ne sont pas toutes présentes sur ces 2 sites web et devront être récupérés sur d’autres site webs. Certaines informations sont trouvables sur le site web de l’entreprise, d’autre sur linkedin et autres, etc…

Y’a-t-il quelqu’un de disponible pour faire ce travail d’ici la fin de semaine prochaine?

1 J'aime

Il est présent ou l’email ? Je vois uniquement des formulaires de contact du type : https://guide.habitat-jardin.ch/fr/Dominique-Magnin,a1710587#contact

Apparemment, ya les domaines des membres. Tu peux sans doute trouver pas mal d’infos directement depuis les sites web.

Tu peux scraper les fiches membres pour choper les domaines, puis scraper les domaines à la recherche des infos dont tu as besoin.

@ScrapingExpert devrait pouvoir te faire ca easy :wink:

2 J'aimes

Merci pour le referal ! :slight_smile:

A voir si je trouve du temps d’ici à fin de semaine pro…

Un petit script python d’une vingtaine de ligne (on utilise deux librairies Requests pour recuperer les pages web sous protocole HTTP et BeautifulSoup pour extraire les données que l’on recherche) permet tres facilement de scraper toutes les données et de les mettre au choix ds une base de données mysql (on utilise la librairie mysql.connector) puis par le jeu de requete sql, vs obtenez tout ce que vous desirez en terme de recherche.

Ce n’est vraiment pas aussi simple qu’écrire une vingtaine de lignes Python en fait :slight_smile:

Surtout que faire uniquement de « vulgaires » requêtes HTTP ne permet certainement pas de gérer le contenu HTML généré dynamiquement par Javascript + requêtes XHR, auquel cas seul un headless browser peut faire le job pour extraire de l’information d’un DOM modifié.

Un bot intelligent capable d’aller naviguer sur les pages de contacts, d’équipes, à propos, etc, nécessite plus que juste quelques lignes, surtout quand il s’agit d’écrire des sélecteurs XPath qui prennent en compte la langue du site (les pages contacts ne sont pas désignées de la même manière en FR, en EN, en ES, en DE, etc).

Qui plus est, tout ça nécessite de savoir coder un minimum, ce qui n’est pas le cas du demandeur de la presta. Faut être en mesure de se mettre au niveau de personnes ne sachant pas forcément coder, car ce que nous on sait faire, bien d’autres n’ont pas encore appris à le faire…

Ca serait juste cool de pas faire passer ce type de job pour un truc « basique » et « easy », car ce n’est absolument pas le cas… :slight_smile:

2 J'aimes

Merci, pour la précision que vous avez apporté. Je n’ai jamais dit que l’extraction de données d’un site était facile car il y a en plus d’autres parametres à prendre en compte comme les captcha ou bien des systeme de verouillage liés aux requetes regulieres, la gestion des exceptions etc… Je faisais allusion au site [https://cees.ch/fr-fr/membres/liste-des-membres.html ] qui est un simple HTML statique, un coup d’oeil rapide mais peut etre pas assez approfondi m’amène à dire : Il suffit de parcourir toutes les lettres (le lien est tres facile à tver ds le html). Il suffit de boucler toutes les lettres, aller sur le lien puis faire un find_all sur les noms et renvoyer la liste des memebres ds du mysql. C est certes un peu technique mais sur ce site en tous les cas je ne detecte pas de pbm particulier. Le XPATH ne s’utilise pas avec BeautifulSoup. Pour du dynamique j’utilise Selenium avec Xpath. J’ai apporté ma collaboration sur ce sujet car j’ai vu que vous aviez mis en ligne des tutos de programmation python avec Requests et BeautifulSoup. Suis je dans l’esprit du site Growthhacking ? Si ce n’est pas le cas je m’abstiendrai dorénavant d’apporter toute contribution et j’en suis vraiment navré car j’ai une grande experience dans ce domaine. Mon intention est uniquement communautaire et je ne souhaite absolument pas me mettre en avant. En ce qui concerne des logiciels clefs en main qui recupere des données precises sans programmation j’en connais pas. Pouvez vous m’en indiquer ? ca m’interesse aussi.

1 J'aime

En regardant d’un peu plus pres ce site est vraiment basique : les liens pour parcourir chaque lettre sont de la forme : https://cees.ch/fr-fr/membres/liste-des-membres.html?azfilter=a
les membres sont dans une table avec des balises facile à recuperer. BeautifulSoup est il me semble la solution la plus rapide et la plus adaptée

Merci, c’est pour ça que l’on demande de l’aide :wink:

Justement l’email n’est pas sur la liste, mais l’idée c’est d’aller chercher des coordonnées de contact de ces entreprises sur cette liste, que ce soit sur leur propre site web ou ailleurs :slight_smile:

1 J'aime

Yes à partir du site web, possible aussi d’utiliser hunter pour avoir plus de résultats que le contact@…

Casse toi pas la tete avec Py,

tu prends webscraper.io, tu scrapes les url des sites sur les 3 pages… ensuite tu les prends, et tu scrapes le html de chaque site toujours avec webscraper.io

tu mets tout cela sur une feuille excel colonne 1.url site, colonne2. html… et tu extraits l’email dans chaque case avec une simple regex

ou tu prends tes urls et tu les glisses ici : https://www.searchcombat.com/harvester

Et après pour trouver plus d’infos, tu fais pareil en injectant dans le query le nom de l’entreprise dans local.ch
… et apres si tu n’as toujours pas assez, tu fais pareil en scrapant Google maps avec local scraper à 6 euros par mois pour windows… et après si tu n’as pas assez tu vas sur scrapebox 47$ lifetime et tu scrapes tous les reseaux sociaux de chaque site, et apres tu scrapes les pages /about de leur page FB … ex: https://www.facebook.com/pg/habitatjardinlausanne/about

Ensuite tu recherches leur page dentreprise sur linkedin avec un phantom buster ou un texau. d’ailleurs tout ce que je viens de dire en haut avec webscraper, peut etre fait avec texau… que ce soit html, google maps, lien sociaux, emails etc…

En quelques heures, tu as tous les emails de ce site en suivant ce que je viens d’écrire…

Si tu cherches de l’aide pour ce genre de choses, écris moi via mon site www.lawebschool.ch

A plus et belle soirée

1 J'aime