Scraping site FFF

Exomundo · Juin 19, 2017, 3:01

Salut à tous les GH,

Je me lance tout juste dans le scraping et je me heurte aux premières difficultés.
J’essaye de scraper le site de la Fédération Française de Football (qui répertorie la liste de tous les clubs de football en France dans son annuaire) pour obtenir, pour chacun des clubs, son nom, le nom du contact et l’adresse mail.

J’ai créé un fichier CSV avec des URL ressemblant à ça https://www.fff.fr/la-vie-des-clubs/4/infos-cles (seul le chiffre change, de 1 à 100 000) et j’ai tenté un scraping avec iMacros. Cependant, le fichier de test de scraping me donne des résultats « étranges » (nom de club dupliqué 5 fois d’afillés…).

Désolé d’avance si jamais un sujet similaire existe déjà et merci du temps que vous prendrez pour m’aider

ScrapingExpert · Juin 19, 2017, 3:56

Malheureusement nous ne disposons pas de suffisamment d’informations de ta part pour pouvoir t’aider, il s’agit là certainement de problèmes d’ordres techniques …

Essayes de donner davantage d’info sur la méthode employée, ta configuration, etc

fanny-graciet · Juin 20, 2017, 9:47

Bonjour à tous,

Je travaille sur le projet avec Exomundo.
Voici la macro que l’on utilise. On arrive à scrapper le nom du club (qui est = au h1) et le nom du dirigeant (dans une balise strong).

VERSION BUILD=9030808 RECORDER=FX
SET !DATASOURCE testfff.csv
SET !DATASOURCE_COLUMNS 1
SET !TIMEOUT_STEP 0
SET !ERRORIGNORE YES
SET !EXTRACT_TEST_POPUP NO
SET !LOOP 1
SET rndSecWait EVAL("3 + Math.floor(Math.random()5)")
TAB T=1
URL GOTO={{!COL1}}
TAG POS=1 TYPE=H1 ATTR= EXTRACT=TXT
TAG POS=1 TYPE=STRONG ATTR=* EXTRACT=TXT
SAVEAS TYPE=EXTRACT FOLDER=* FILE=+{{!NOW:ddmmyyyy}}.csv
WAIT SECONDS={{rndSecWait}}

On aimerait pouvoir scrapper l’adresse mail, mais nous ne trouvons pas de balise assez précise pour le faire.
Quels autres moyens avons-nous pour scrapper l’adresse mail (regex…) ?

Merci pour votre aide

fanny-graciet · Juin 20, 2017, 9:47

Je viens de résoudre le problème en utilisant le XPath pour scrapper l’adresse mail.
J’ai fait un test sur quelques URLs et tout est ok. Ca devrait le faire pour le projet

ScrapingExpert · Juin 20, 2017, 10:23

Oui je te conseille d’utiliser les XPaths à 1 0000 % , de cette façon tu pourras toujours extraire chacun des champs de données de manière très ciblée.

Pour l’email, par exemple:
//li/p[starts-with(span, 'E-mail')]/text()

VivianSolide · Juin 20, 2017, 2:09

Tu peux jeter un œil ici si tu veux

Exomundo · Juin 22, 2017, 7:38

Merci pour vos réponses @ScrapingExpert @VivianSolide ! Je tâcherai d’être plus précis à l’avenir pour définir le contexte