Je travaille sur une plateforme de scrapping permettant d’extraire de la data sans aucun code ou configuration: https://www.cormoran.io
Etant donnée une URL et son HTML, l’algorithme va détecter les blocks les plus pertinents pour ensuite les convertir dans un format tabulaire (e.g. CSV).
Hello, c’est peut-être indiscret mais tu utilises quoi comme techno en back? Si c’est confidentiel, juste une petite explication de comment ça fonctionne concrètement?
Sinon beau travail, c’est vraiment une bonne idée je trouve et pour un proof-of-concept ce que tu montres déjà est vraiment cool!
Merci Benoit pour ta contribution au monde du scrapping
En voyant ton outil, je ne peux m’empêcher de penser à import.io
Que souhaites-tu faire avec ? Monétiser, agréger des données, pour le plaisir ?
Oui, il y a clairement beaucoup de rapprochement avec import.io, ainsi que diffbot.com. Cependant, ces 2 outils sont assez cher et sans plan gratuit. De plus, je n’arrive pas à répondre facilement à certains de mes use-cases, comme la conversion d’un site entier vers un fichier tabulaire (cette fonctionnalité n’est pas encore disponible non plus sur ma plateforme, c’est mon objectifs suivant).
L’effort derrière cormoran.io est motivé par plusieurs applications que j’envisage de développer (e.g. application de suivi de prix (bien qu’en vérité, les algorithmes de cormoran.io ont d’abord été codé pour scrapper exclusivement des prix sur internet), ou bien l’agrégation de plateformes de crowdlending). Ayant été contacté plusieurs fois pour des sujets de scrapping, il m’a semblé pertinent de wrapper tout cela derrière une plateforme. Ma volonté est effectivement de monétiser cette plateforme.
Il est apparu qu’il pouvait être difficile avec Cormoran.io d’accéder aux données protéger par des credentials, ou bien requérant des actions utilisateurs complexes (e.g. Cormoran.io sait gérer des méchanismes génériques tel que l’infinite-scrolling, mais il peut avoir des difficultés à comprendre qu’un bouton va triggerer le loading de contenu additionnel).
Cela permet par exemple de récupérer les membres d’un groupe facebook (l’extension Chrome facilite le déroulage de l’infinite-scrolling, puis envoi contenu pour scrapping).
Encore une fois, je serai très intéressé pour avoir votre feedback. Merci pour vos retours !
Merci pour ton extension ! J’ai essayé de l’utiliser mais pas moyen d’obtenir plus de 21 profils fb (sur un groupe de 2 500+ personnes). Je l’ai lancé une première fois (ce qui a permis d’aller jusqu’au bout de la liste) puis une seconde et j’ai relancé donc je ne comprends pas pourquoi tous les profils ne s’exportent pas.
Par rapport au test sur un site, il détecte bien les datas que je souhaite (tel / code postal / email) sans que je les ai choisies ce qui est top par contre impossible de les exporter sous csv (le fichier est vide excepté pour une cellule « url »)
Je n’arrive pâs à avoir acces au fichier , on me demande de s’enregistrer mais quand je le fais on me dit qu’il faut une autorisation de l’administrateur
Bonjour à tous et @Benoit_Lacelle.
Je viens de faire un tour sur votre Hello_world qui semble très bien fonctionner.
Mais je ne suis pas en mesure de télécharger le résultat (ou de l’ouvrir dans un Gsheet par ex).
Une idée?
Merci!
Suite à ma transition sur un autre projet, j’ai simplifié cette maquette et l’ai drastiquement accéléré. Malheureusement, il apparaît que le téléchargement sous forme de fichier ne soit plus disponible. Si un développeur VueJS est motivé, je peux ouvrir l’accès au projet.