Scraping site Dataminer.io

Bonjour,

Je souhaiterai scraper les entreprises figurant sur la page :
https://www.vinci.com/vinci.nsf/fr/implantations/pages/region_ile_de_france.htm

J’ai essayé avec Dataminer.io de créer mon propre recipe et j’obtiens en résultat seulement le nom de l’entreprise et le lien du site ou l’email,
Malheureusement le reste, c’est à dire l’adresse, le CP, la ville et le n° de tél se retrouve en une seule cellule et tout attaché sans délimitation.

Exemple : Aviso1973 boulevard de la DéfenseCS 1026892757 Nanterre CEDEXTel. : +33 1 57 98 76 00https://www.vinci.comFacebookTwitterLinkedInVimeoYouTube

Est-il possible de remédier à ce problème ou existe-t-il une solution ?

J’espère que j’ai été assez clair dans mes explications…

En vous remerciant d’avance,

Jules

Le problème est qu’il n’y a pas de tag délimitateur clair su ce DOM:

Tout est en vrac (avec des retours au chariot br)

Solution 1 : utiliser les expressions régulières
Solution 2 : faire un "explode de la chaine avec le « br » tu auras les données sous forme de tableau
adresse = data[0]
rcs = data[1]
villeCP = data[2] (ici faut de nouveau appliquer une regex pour découper le CP de la ville)
tel : data[3]

Voilà, j’espère que cela peut t’aider…

La deuxième solution est la meilleure et faire un mapping sous excel avec les tableaux croisés dynamiques pour mettre les infos à plat

Le problème est que dataminer semble avoir mangé les br !

Merci beaucoup pour vos réponses, je vais essayer vos solutions cet après midi !
Je vous tiens au courant !

POur ce type de scraping, je te suggère Webscrapper. Si tu galères, je te laisse me contacter et je pourrais même le faire.

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.