Je n'arrive pas à sélectionner un texte (pas de balise de classe)

grimat · Mars 27, 2024, 4:09

Bonjour, sur cet exemple d’url, je n’arrive pas à scrapper le téléphone portable car coté code source il n’y a pas de classe appliquée à cet élément. Sauriez vous comment faire ?

url : CHASSE DU VALLON - PecheretChasser.com

Valou76 · Mars 27, 2024, 4:12

Tu peux utiliser du regex

grimat · Mars 27, 2024, 4:16

ok, tu peux m’aider car je ne connais pas le regex

grimat · Mars 27, 2024, 4:20

merci d’avance car le je suis dans le flou

DJousto · Mars 27, 2024, 7:27

héhé le bon petit site web du millénaire dernier, codé par le stagiaire, effectivement difficile d’identifier les champs, mais avant tout il faudrait préciser avec quel outil tu souhaites scraper les données, si ton outil le permet, une expression régulière est potentiellement la réponse (demandes à chat GTP de faire une REGEX pour numéro de portable … en gros c’est une manière d’expliquer à ton outil que tu chercher quelque chose qui commence par 06 ou 07 puis 4 paires de deux chiffres)

Valou76 · Mars 27, 2024, 8:06

Quel est ton outil de travail déjà ?
Tu peux utiliser une expression régulière (regex) pour récupérer les téléphones mais selon la qualité de ton regex tu peux récupérer des infos parasites.

grimat · Mars 28, 2024, 8:37

merci @DJousto je vais essayer sur chatgpt en effet - merci aussi à @Valou76 , je travaille sur webscrapper.io (extension chrome), je trouve l’outil énorme pour qqun qui soit en nocode !!

grimat · Mars 28, 2024, 9:52

voici le code regex proposé par chatgpt :

(?:06|07)\d{8}(?!\d)

quand je fais Data preview, rien n’apparait pour ce selecteur …

voici mon sitemap :

{"_id":"pecheretchasser-com-chasse-france","startUrl":["https://www.pecheretchasser.com/chasse-france/"],"selectors":[{"id":"page","paginationType":"auto","parentSelectors":["_root","page"],"selector":"a.next","type":"SelectorPagination"},{"id":"annonce","multiple":true,"parentSelectors":["page"],"selector":".bd-layoutbox-29 div.bd-container-inner","type":"SelectorElement"},{"id":"clic","linkType":"linkFromHref","multiple":false,"parentSelectors":["annonce"],"selector":".entry-title a","type":"SelectorLink"},{"id":"nom","multiple":false,"parentSelectors":["clic"],"regex":"","selector":"h2","type":"SelectorText"},{"id":"adresse","multiple":false,"parentSelectors":["clic"],"regex":"","selector":".bd-customcmscode-1 div.maj:nth-of-type(1)","type":"SelectorText"},{"id":"cp-ville","multiple":false,"parentSelectors":["clic"],"regex":"","selector":".bd-customcmscode-1 div:nth-of-type(3)","type":"SelectorText"},{"id":"mobile","multiple":false,"parentSelectors":["clic"],"regex":"(?:06|07)\\d{8}(?!\\d)","selector":"div.bd-customcmscode-1","type":"SelectorText"},{"id":"site web","multiple":false,"parentSelectors":["clic"],"regex":"","selector":"a.bouton-source","type":"SelectorText"},{"id":"facebook","linkType":"linkFromHref","multiple":false,"parentSelectors":["clic"],"selector":".bd-customcmscode-1 a[target]","type":"SelectorLink"}]}

Valou76 · Mars 28, 2024, 9:56

Essaie ça (?:(?:+|00)33|0)\s*1-9{4}

grimat · Mars 28, 2024, 10:35

désolé, j’ai un message d’erreur (extension chrome webscrapper.io)
Capture

DJousto · Mars 28, 2024, 3:11

moi j’utilise çà pour des portables :
r'(?:0|00 33|\+33|0033)\s?[67](\D?)\d\d\1\d\d\1\d\d\1\d\d'

mais je sais pas si çà marche pareil en javascript désolé

Valou76 · Mars 28, 2024, 3:40

J’utilise pas webscrapper.io donc je peux pas t’aider plus malheureusement

grimat · Mars 28, 2024, 3:42

merci, je n’ai pas de message d’erreur mais aucune valeur ne remonte quand je renseigne ce code dans le champ regex. Si je le retire du champ regex, tout s’affiche.

Après de nouvelles recherches via chatgpt, j’ai trouvé le bon code :

Mobile(.{17})

Valou76 · Mars 28, 2024, 3:51

Je pense qu’avec ça tu vas chopper tout ce qu’il y a après le texte « Mobile : » c’est pas exactement pour repérer les numéros de téléphone. Mais bon si ça marche c’est le principal