selectionner un <p> parmis d'autres , Python

M.youssef · Mars 1, 2021, 5:38

Bonjour a tous :

Je suis nouveau parmi vous, je voudrais savoir comment faire pour récupéré juste les adresses mails et non tout les

.
Merci d’avance

Paul780 · Mars 1, 2021, 5:41

Salut !

Tu peux :

lister tous tes p dans la div coordonnees (findAll(‹ p ›) puis sélectionner le p qui contient ‹ mailto › pour récupérer le texte

OU

découper ta réponse pour isoler le mail : split(‹ mailto ›)[1].split[’">’][0]

Tu pourrais surement aussi utiliser du regex, mais je m’y connais pas. J’utiliserai le split personnellement si le volume de données à traiter n’est pas trop important, ce n’est peut être pas le plus optimisé mais ça marche !

M.youssef · Mars 1, 2021, 9:44

Merci pour ta réponse
avec ce code j’ai la

avec tt les

c’est que que je bloque

Paul780 · Mars 1, 2021, 10:32

emailDiv = soup.findAll('div',{'class':'coordonnees-container'})
emails = [div.split("mailto:")[1].split('">')[0] for div in emailDiv]

print(emails) devrait te donner un array avec tous les emails

ClementAubry · Mars 4, 2021, 3:06

Hello @M.youssef,

Le plus simple est de récupérer directement l’attribut href des balises <a> contenant mailto:

import re
a_list = soup.find_all('a', href=re.compile('mailto:'))
emails = [a['href'].replace('mailto:', '') for a in a_list]