Outil pour mise en forme de données scrappées


#1

Salut à tous,

Je suis en train de développer un scrappeur pour me faire un tableau de bord des tarifs de mes concurrents. Je suis sur une thématique similaire à l’hotellerie, je dois donc pouvoir dans ce tableau de bord, comparer les prix de plusieurs concurrents sur des périodes différentes (semaine prochaine, mois prochain, etc.) et des produits différents (chambre solo, twin, suite, etc.).

Bref cela fait pas mal de données à organiser, alors étant dev j’étais parti pour me faire une interface from scratch avec des plugins jquery pour dessiner les courbes / tableaux qui seront issus de ma base de données… mais si vous avez une idée de tools plus ou moins génériques conçus pour faciliter la mise en place de ce type de dashboards je suis preneur :wink:


#2

Salut,

Pour infi, ce genre d’outil existe deja depuis longtemps : Ils sont commercialises sous forme de license annuelle pour etudier par periode les tarifs des differentes chambres des concurrents locaux.
L’analyse se fait au niveau du quartier, de plusieurs arrondissement, par rue, par ville, periode… avec les criteres specifiques a l hotellerie.
Gros avantage : Des qu il y a une modification, tu es avertis. Donc tu sais immediatement si tu es underpricing ou overpricing, ou bien ca te permet d ajouter des services complementaires…


#3

Salut,

Merci pour ton retour, je connais effectivement ces solutions SaaS pour hotels mais là je suis sur un secteur qui n’est pas l’hôtellerie (mais y ressemble dans son fonctionnement), et il n’existe pas de solutions déjà prêtes.

Il me faut donc dev mon scrappeur from scratch.


#4

Pas évident, je t’avoue que gérant pas mal de data et étant surtout dans la création pure de bots/scrapers, là où des personnes comme moi pêchent le plus, c’est certainement sur l’aspect dataviz.

Il existe certainement beaucoup de solutions et diverses briques ici et là, mais au final il y a toujours une courbe d’apprentissage et l’outil ne répond pas forcément à tous tes besoins très spécifiques.

Du coup peut être que ta solution d’utiliser des outils non génériques est peut être pas si mal. Toutefois si il existe des lib pour faire du data visualisation hautement personnalisable, je suis preneur également :smiley:


#5

OK, donc on fait le même constat.

Pas sur effectivement qu’il puisse exister une solution générique tant les projets sont spécifiques (demandes du client, structures des données, etc.)


#6

Kibana ? Apres ça depend de vos exigences. .


#7

Bien vu, je pensais à ça aussi :slight_smile:
Mais de manière générale il n’y pas 100 milles façon de visualiser les données donc ce serait surement possible d’écrire une petite librairie maison réutilisable à souhaits :slight_smile:


#8

Oui dans cet esprit, merci je ne connaissais pas Kibana, je vais le tester !


#9

Hello,

j’ai moi aussi rencontré ce problème de visualisation des données scrapées.
Je me suis orienté vers https://grafana.com/
Un outil open source très facile à prendre en main qui permet de créer des dashboards.
J’ai couplé grafana avec opentsdb (une base de données pour des séries temporelles) mais d’autres sources de données sont possibles.
Comme Prometheus qui semble être assez populaire.


#10

Idem, mais j’ai utilise Google Refine dispo ici : http://openrefine.org/
Pas mal de bons tuto sur YT.

Belle Journee !


#11

Merci pour vos idées de tools :wink:


#12

Bonjour,
Amis scrapper, je souhaite votre avis.
J’ai mis au point, (avec l’aide d’une équipe de recherche spécialisée data du CNRS), une application permettant de transformer automatiquement un fichier excel d’entrée au format inconnu (fichier Input) vers un fichier excel de sortie (Output) dont le format (titres des colonnes, contenu des cellules) est fixé par l’utilisateur (lire: le joujou sait ce qu’il cherche, si il le trouve, il l’affiche avec mon libéllé).
Lorsqu’il ne trouve pas, l’utilisateur mappe manuellement et le système fait son apprentissage.
Il faut moins d’une heure pour l’initialiser “à froid” et avoir confortablement des résultats. Il faut juste savoir ce que l’on cherche.
Initialement j ai fait ce projet pour une problématique de reprise d’historique de sinistres d’assurance, (4000 courtiers, 4000 formats, chacun ses appellations, son ordre…bref …du excel …). Coté perf, j’ai fait +9000 lignes transformées en 37 sec. Pas rapide (nota: sur un petit pc 2 meg de ram) mais énorme vs le temps que j’y passait à la mimine.
J’envisage d’en faire un outils Saas, accessible par abonnement .
Quel serait le montant d’abonnement annuel que vous seriez prêt à régler pour ce type de service?.
Merci à tous de votre avis.
Xavier


#13

Perso rien car Talend en open source comme ETL performant et qui n’a quasi pas de limite


#14

Merci @karni,
Talend est un formidable outil mais c’est pour les interfaces stables et décrites. Je l’utilise aussi pour mes imports structurés ( schémas connus et fréquences régulières).
Je parle ici d’un mapper de fichier excel pour les utilisateurs métiers (aucune intervention des DSI).
En bref, pour ne pas developper un ETL pour un fichier de 200 lignes que je ne vais recevoir de cet acteur , dans ce format, qu’une fois (mais j’ai plein d’acteurs et plein de formats).
heuu …je ne sais pas si c’est clair?
Re merci de ton avis


#15

Précision: l’outil reconnait tout seul les colonnes et les contenus des cellules puis les transforme dans les libellés cibles :

  • Création du fichier Target.xlsx; on nommer les titres des colonnes et on renseigne les différentes valeurs des cellules qu’on veut en cible (fichier Target.xlsx);
  • Download du fichier excel (fichier Input)
  • Lancer le mapping : affichage du résultat: titres trouvés, cellules trouvées; Lors de la phase d’apprentissage, si il ne trouve pas on fait le rapprochement manuellement. + on renseigne le Target à l’origine, + les résultats à froid (avant tt apprentissage) sont bon.
  • Download du fichier transformé (fichier Output)

En bref, l’utilisateur ne connait pas le schéma de la SGBD, il connait juste le libellé de l’entité et les libellés des attributs correspondants. Et pour lui, c’est titre et valeurs dans du excel et hop…

Merci
Xavier

PS: je ne suis pas sur ce site pour vous vendre mon truc, mais pour (essayer de) comprendre le growthhacking pour vendre ensuite l’app en saas…


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr