Scrapper site de résultats de biathlon

Bonjour,

J’ai essayé plein de logiciels de scrapping pour récupérer l’ensemble des résultats de biathlon sur le site https://biathlonresults.com/. J’aimerais me faire une base de données pour voir les évolutions des différents athlètes et pays,etc…

Je n’arrive qu’à récupérer quelques petits trucs comme la date le lieu et le type d’épreuve mais pas le tableau des scores associé voir le fichier pdf. L’ensemble des données est sur Azure, j’ai essayé de voir si on pouvait y accéder mais a priori non ?

Quelqu’un a une idée ? Merci beaucoup d’avance pour votre aide.

A+

Hello, en passant par l’API du site.

1 J'aime

Pour compléter le message de @lorent, voici un exemple :

Martin Fourcade : https://biathlonresults.com/modules/sportapi/api/CISBios?IBUId=BTFRA11409198801

Merci beaucoup !!! Vous êtes balèze !! Bon il y a plus qu’à trouver un moyen de récupérer tout ça propre facilement.

Je suis débutant sur python, avec Scrappy je penses que je peux générer un petit programme pour récupérer tout ça, qu’est ce que vous en pensez ?

La problématique c’est d’avoir les « IBUId » de l’ensemble des sportifs. J’ai pas trouvé, mais j’ai pas trop eu le temps de regarder.

Après pour le scraping en lui même, c’est pas compliqué, tu peux même faire ça depuis spreadsheet.

(cc @mapi, possible d’importer/parser ce type de format :point_down: avec =importfromweb ?).

Avec un tout petit script de rien du tout sur Google sheet tu peux tout importer easy.

J’ai un excellent tuto sur le sujet :stuck_out_tongue_winking_eye: si ça te dit: https://deux.io/google-scripts/

2 J'aimes

Bonjour,

J’ai essayé les différentes options mais cela ne fonctionne pas j’ai l’erreur " Error Imported Xml content can not be parsed." lorsque j’utilise les formules dans le spreadsheet.
Et en javascript @cebri cela ne fonctionne pas non plus, j’ai essayé ceci :

function getbiathlondata(RT,RaceId) {
var url = « https://biathlonresults.com/modules/sportapi/api/Results?" + RT + »&" + RaceId;
var response = UrlFetchApp.fetch(url);
var json = response.getContentText();
var data = JSON.parse(json);
return data.getbiathlondata;
}

je penses que je ne suis pas très loin de la solution, mais je n’ai pas encore trouvé :wink:
Merci pour vos pistes en tout cas !!!

Pour info j’ai réussi à récupérer les RaceId grâce à Scrapy.
Il ne me reste plus qu’a coder en Python pour récupérer tout le reste.
Merci pour tous vos conseils, quand j’aurais terminé je vous mettrais le résultat :wink:

Plus simple :slight_smile:

–> https://github.com/prtkv/biathlonresults

Enjoy !

2 J'aimes

Parieur sportif ?

Non, juste en reconversion professionnelle et je souhaite développer des outils de machine learning et autres…
Vu que je débute en programmation avec Python, je préfère crée un outil qui me motive bien car je suis fan de Biathlon, mais oui j’ai pensé aux paris, mais je ne suis pas joueur, donc c’est juste pour le fun :wink:

Beaucoup plus simple c’est clair, je vais récupérer une partie du code pour extraire exactement ce que je veux et me faire ma petite base de données bien propre.

Merci pour ce message !!! Au moins j’aurais appris à utiliser Scrapy, ça peut toujours servir :wink:

De toute façon, si tu développes du machine learning pour essayer d’estimer les meilleurs paris à faire tu vas tomber … sur les mêmes côtes que les sites de paris sportif :sweat_smile: C’est justement leur business d’estimer les probabilités de victoire et de proposer des côtes légèrement sous-évaluées :slight_smile:

PS Aurélien: tu es un bigoudi Vosgien? j’adore le pseudo :slight_smile:

Oui c’est ça un Bigoudi Vosgien :wink:

ClmAubry

19h

Bigoudi88:

mais oui j’ai pensé aux paris

De toute façon, si tu développes du machine learning pour essayer d’estimer les meilleurs paris à faire tu vas tomber … sur les mêmes côtes que les sites de paris sportif :sweat_smile: C’est justement leur business d’estimer les probabilités de victoire et de proposer des côtes légèrement sous-évaluées

Oui après c’est surtout pour montrer en cas d’entretien d’embauche que j’ai des skills et que je suis motivé et que je sais bricoler + ou - de la data, avec un peu d’aide d’internet certe :wink:

1 J'aime

Sinon j’ai réussi à récupérer la data en format json (je supposes car python me dit que c’est un dictionnaire) mais maintenant il faut que je mette ça en forme base de données propre, j’ai pas besoin de toutes ces infos…