Scraping site FFF

Salut à tous les GH,

Je me lance tout juste dans le scraping et je me heurte aux premières difficultés.
J’essaye de scraper le site de la Fédération Française de Football (qui répertorie la liste de tous les clubs de football en France dans son annuaire) pour obtenir, pour chacun des clubs, son nom, le nom du contact et l’adresse mail.

J’ai créé un fichier CSV avec des URL ressemblant à ça https://www.fff.fr/la-vie-des-clubs/4/infos-cles (seul le chiffre change, de 1 à 100 000) et j’ai tenté un scraping avec iMacros. Cependant, le fichier de test de scraping me donne des résultats « étranges » (nom de club dupliqué 5 fois d’afillés…).

Désolé d’avance si jamais un sujet similaire existe déjà et merci du temps que vous prendrez pour m’aider :slight_smile:

Malheureusement nous ne disposons pas de suffisamment d’informations de ta part pour pouvoir t’aider, il s’agit là certainement de problèmes d’ordres techniques …

Essayes de donner davantage d’info sur la méthode employée, ta configuration, etc :slight_smile:

Bonjour à tous,

Je travaille sur le projet avec Exomundo.
Voici la macro que l’on utilise. On arrive à scrapper le nom du club (qui est = au h1) et le nom du dirigeant (dans une balise strong).

VERSION BUILD=9030808 RECORDER=FX
SET !DATASOURCE testfff.csv
SET !DATASOURCE_COLUMNS 1
SET !TIMEOUT_STEP 0
SET !ERRORIGNORE YES
SET !EXTRACT_TEST_POPUP NO
SET !LOOP 1
SET rndSecWait EVAL("3 + Math.floor(Math.random()5)")
TAB T=1
URL GOTO={{!COL1}}
TAG POS=1 TYPE=H1 ATTR=
EXTRACT=TXT
TAG POS=1 TYPE=STRONG ATTR=* EXTRACT=TXT
SAVEAS TYPE=EXTRACT FOLDER=* FILE=+{{!NOW:ddmmyyyy}}.csv
WAIT SECONDS={{rndSecWait}}

On aimerait pouvoir scrapper l’adresse mail, mais nous ne trouvons pas de balise assez précise pour le faire.
Quels autres moyens avons-nous pour scrapper l’adresse mail (regex…) ?

Merci pour votre aide :slight_smile:

Je viens de résoudre le problème en utilisant le XPath pour scrapper l’adresse mail.
J’ai fait un test sur quelques URLs et tout est ok. Ca devrait le faire pour le projet :smiley:

1 J'aime

Oui je te conseille d’utiliser les XPaths à 1 0000 % , de cette façon tu pourras toujours extraire chacun des champs de données de manière très ciblée.

Pour l’email, par exemple:
//li/p[starts-with(span, 'E-mail')]/text()

1 J'aime

Tu peux jeter un œil ici si tu veux :slight_smile:

5 J'aimes

Merci pour vos réponses @ScrapingExpert @VivianSolide ! Je tâcherai d’être plus précis à l’avenir pour définir le contexte :slight_smile:

2 J'aimes