je rencontre de sérieux soucis depuis 2 mois car je ne parviens pas à scraper de manière correcte les différentes tables de la page du site suivant :
[Exemple de page] ((4-chlorophenoxy)acetic acid) Site.
J’ai essayé en no-code (webscraper, octoparse et d’autres…) ou avec Python (pandas, Beautifulsoup…) mais ca ne me donne rien d’exploitable en csv. Quelqu’un aurait-il une solution pour m’aider
bonsoir, avec python pandas ça m’a pourtant l’air de marcher, sauf qu’on récupère 35 tableaux, faut trouver le ou les bons et éventuellement recoller des morceaux car si la structure html n’est pas très propre il peut y avoir plusieurs tableaux de créés pour un seul tableau visuellement présent
Bonsoir,
merci pour ton aide. Ca marche effectivement sans rentrer dans le détail mais je bloque sur des détails d’apparence dirons nous. Par exemple, beaucoup de colonnes n’ont pas de titres et n’ont pour index que 0 ou 1. (Donc c’est compliqué à travailler pour moi et aussi d’en sortir des données exploitables ou compréhensible d’autres. As tu une expertise à m’apporter la dessus ou un bout de script de mise en forme?
avec cette commande data = pd.read_html('http://sitem.herts.ac.uk/aeru/ppdb/en/Reports/7.htm', header=0, skiprows=1)
j’ai l’impression qu’on obtient des tables exploitables mais je n’ai pas regardé dans le détail, car je ne sais pas ce que tu veux récupérer, effectivement le formatage de la page n’est pas top et il y aura surement des adaptations à faire
Bonjour,
je suis curieux de votre question.
En effet, je ne suis pas expert dans Python, et j’utilise plutôt webscraper et octoparse.
J’ai essayé de configurer dans octoparse, le résultat est comme le suivant. cela semble marcher bien.
un loop pour cliquer les éléments pour entrer dans la page de détail
extraire les données de la colonne droite et changer le nom des champs de données d’après la colonne à gauche (puisque chaque page de détail partage le même colonne gauche) et vas-y.
Effectivement ca fonctionne mais ce n’est pas dans le bon sens donc pas très compréhensible (d’après moi). Car ce n’est pas pour moi (qui connait l’original)
Dans cette version tout est à l’horizontal et non à la verticale, ce qui ne facilite pas la compréhension