Scraper la data d'une base de données PPDB (en no-code ou avec Python)

Bonsoir à tous,

je rencontre de sérieux soucis depuis 2 mois car je ne parviens pas à scraper de manière correcte les différentes tables de la page du site suivant :
[Exemple de page] ((4-chlorophenoxy)acetic acid)
Site.
J’ai essayé en no-code (webscraper, octoparse et d’autres…) ou avec Python (pandas, Beautifulsoup…) mais ca ne me donne rien d’exploitable en csv. Quelqu’un aurait-il une solution pour m’aider :crossed_fingers:

Merci d’avance et bon week end !

bonsoir, avec python pandas ça m’a pourtant l’air de marcher, sauf qu’on récupère 35 tableaux, faut trouver le ou les bons et éventuellement recoller des morceaux car si la structure html n’est pas très propre il peut y avoir plusieurs tableaux de créés pour un seul tableau visuellement présent

Bonsoir,
merci pour ton aide. Ca marche effectivement sans rentrer dans le détail mais je bloque sur des détails d’apparence dirons nous. Par exemple, beaucoup de colonnes n’ont pas de titres et n’ont pour index que 0 ou 1. (Donc c’est compliqué à travailler pour moi et aussi d’en sortir des données exploitables ou compréhensible d’autres. As tu une expertise à m’apporter la dessus ou un bout de script de mise en forme? :slightly_smiling_face:

avec cette commande
data = pd.read_html('http://sitem.herts.ac.uk/aeru/ppdb/en/Reports/7.htm', header=0, skiprows=1)
j’ai l’impression qu’on obtient des tables exploitables mais je n’ai pas regardé dans le détail, car je ne sais pas ce que tu veux récupérer, effectivement le formatage de la page n’est pas top et il y aura surement des adaptations à faire

1 « J'aime »

Bonjour,
je suis curieux de votre question.
En effet, je ne suis pas expert dans Python, et j’utilise plutôt webscraper et octoparse.

J’ai essayé de configurer dans octoparse, le résultat est comme le suivant. cela semble marcher bien.
un loop pour cliquer les éléments pour entrer dans la page de détail
extraire les données de la colonne droite et changer le nom des champs de données d’après la colonne à gauche (puisque chaque page de détail partage le même colonne gauche) et vas-y.

Bonsoir et merci Arnaud !! :slight_smile:

Effectivement ca fonctionne mais ce n’est pas dans le bon sens donc pas très compréhensible (d’après moi). Car ce n’est pas pour moi (qui connait l’original)
Dans cette version tout est à l’horizontal et non à la verticale, ce qui ne facilite pas la compréhension

Bonsoir @DJousto (et désolée pour le retard de la réponse!! :frowning: )

J’ai vu la réponse il y à 3 jours et oui ca fonctionne. C’est déjà un pas en avant !! :slight_smile:

Merciii pour le coup de main!