Je n'arrive pas à sélectionner un texte (pas de balise de classe)

Bonjour, sur cet exemple d’url, je n’arrive pas à scrapper le téléphone portable car coté code source il n’y a pas de classe appliquée à cet élément. Sauriez vous comment faire ?

url : CHASSE DU VALLON - PecheretChasser.com

Tu peux utiliser du regex

ok, tu peux m’aider car je ne connais pas le regex

merci d’avance car le je suis dans le flou :upside_down_face:

héhé le bon petit site web du millénaire dernier, codé par le stagiaire, effectivement difficile d’identifier les champs, mais avant tout il faudrait préciser avec quel outil tu souhaites scraper les données, si ton outil le permet, une expression régulière est potentiellement la réponse (demandes à chat GTP de faire une REGEX pour numéro de portable … en gros c’est une manière d’expliquer à ton outil que tu chercher quelque chose qui commence par 06 ou 07 puis 4 paires de deux chiffres)

1 « J'aime »

Quel est ton outil de travail déjà ?
Tu peux utiliser une expression régulière (regex) pour récupérer les téléphones mais selon la qualité de ton regex tu peux récupérer des infos parasites.

1 « J'aime »

merci @DJousto je vais essayer sur chatgpt en effet - merci aussi à @Valou76 , je travaille sur webscrapper.io (extension chrome), je trouve l’outil énorme pour qqun qui soit en nocode !!

voici le code regex proposé par chatgpt :

(?:06|07)\d{8}(?!\d)

quand je fais Data preview, rien n’apparait pour ce selecteur …

voici mon sitemap :

{"_id":"pecheretchasser-com-chasse-france","startUrl":["https://www.pecheretchasser.com/chasse-france/"],"selectors":[{"id":"page","paginationType":"auto","parentSelectors":["_root","page"],"selector":"a.next","type":"SelectorPagination"},{"id":"annonce","multiple":true,"parentSelectors":["page"],"selector":".bd-layoutbox-29 div.bd-container-inner","type":"SelectorElement"},{"id":"clic","linkType":"linkFromHref","multiple":false,"parentSelectors":["annonce"],"selector":".entry-title a","type":"SelectorLink"},{"id":"nom","multiple":false,"parentSelectors":["clic"],"regex":"","selector":"h2","type":"SelectorText"},{"id":"adresse","multiple":false,"parentSelectors":["clic"],"regex":"","selector":".bd-customcmscode-1 div.maj:nth-of-type(1)","type":"SelectorText"},{"id":"cp-ville","multiple":false,"parentSelectors":["clic"],"regex":"","selector":".bd-customcmscode-1 div:nth-of-type(3)","type":"SelectorText"},{"id":"mobile","multiple":false,"parentSelectors":["clic"],"regex":"(?:06|07)\\d{8}(?!\\d)","selector":"div.bd-customcmscode-1","type":"SelectorText"},{"id":"site web","multiple":false,"parentSelectors":["clic"],"regex":"","selector":"a.bouton-source","type":"SelectorText"},{"id":"facebook","linkType":"linkFromHref","multiple":false,"parentSelectors":["clic"],"selector":".bd-customcmscode-1 a[target]","type":"SelectorLink"}]}

Essaie ça (?:(?:+|00)33|0)\s*1-9{4}

désolé, j’ai un message d’erreur (extension chrome webscrapper.io)
Capture

moi j’utilise çà pour des portables :
r'(?:0|00 33|\+33|0033)\s?[67](\D?)\d\d\1\d\d\1\d\d\1\d\d'

mais je sais pas si çà marche pareil en javascript désolé

J’utilise pas webscrapper.io donc je peux pas t’aider plus malheureusement

merci, je n’ai pas de message d’erreur mais aucune valeur ne remonte quand je renseigne ce code dans le champ regex. Si je le retire du champ regex, tout s’affiche.

Après de nouvelles recherches via chatgpt, j’ai trouvé le bon code :

Mobile(.{17})

Je pense qu’avec ça tu vas chopper tout ce qu’il y a après le texte « Mobile : » c’est pas exactement pour repérer les numéros de téléphone. Mais bon si ça marche c’est le principal

1 « J'aime »