Comment scraper un site qui change ses classes tous les jours ?

ArnaudH · Mai 30, 2020, 4:23

Bonjour,

J’essaye de scraper tous les matins une page (celle la : https://www.pinnacle.com/fr/tennis/matchups) sauf que je viens de me rendre compte qu’ils changent leurs classes régulièrement !

Genre il y a quelques jours j’avais cette classe :
style_participantName__30PPU ellipsis

et maintenant c’est cette classe : style_participantName__vRjBw ellipsis

Avez-vous des idées de comment je pourrais contourner ce système ?

Merci !

Camille · Mai 30, 2020, 4:30

Est-ce que le xpath change ? Sinon au pire des cas > regex.

ArnaudH · Mai 30, 2020, 4:44

Je ne connaissais pas le concept de xpath, je vais regarder ça

Merci Camille !

tonguide · Juin 1, 2020, 9:24

Tu peux également garder des selectors classiques :

[class^=style_participantName__]

Tu remarqueras le ^ qui permet de dire « qui commence par », ainsi peu importe l’identifiant derrière.

raz101 · Juin 1, 2020, 1:40

Si tu veux quelque chose de plus sûr, tu peux te baser sur les requêtes Ajax directement. C’est un peu plus long, car il faut comprendre comment ça fonctionne, mais change généralement bien moins souvent.

Quelques liens d’exemple

https://guest.api.arcadia.pinnacle.com/0.1/sports/33/matchups
https://guest.api.arcadia.pinnacle.com/0.1/sports

Etc…

ClementAubry · Juin 2, 2020, 2:30

Pour compléter les réponses qui devront déjà largement te suffire (notamment le xpath qui est le plus simple) tu peux imaginer te créer une fonction pour automatiquement détecter les nouvelles classes.

Tu enregistre une page HTML à un instant T, dont tu sais que le contenu (textuel) ne changera pas au cours du temps. Ca te permettra de retrouver les balises non pas à partir des classes mais à partir du texte.

Chaque jour, tu scrapes cette même page, retrouve les balises grâce au contenu et récupère la nouvelle classe

GoldRazor · Juillet 9, 2020, 8:54

//div[contains(@class, 'ParticipantName')