Scrapping sans code ni config - Cormoran.io

Hello,

Je travaille sur une plateforme de scrapping permettant d’extraire de la data sans aucun code ou configuration:
https://www.cormoran.io

Etant donnée une URL et son HTML, l’algorithme va détecter les blocks les plus pertinents pour ensuite les convertir dans un format tabulaire (e.g. CSV).

Par exemple, pour l’URL https://www.growthhacking.fr/, https://www.cormoran.io permet de récupérer automatiquement la liste des sujets ainsi que la catégorie, le nombre de vues, etc:
https://www.cormoran.io/#!/?url=https:%2F%2Fwww.growthhacking.fr%2F&jobid=050f0812-51f8-448f-9575-1bb40c275052

La plateforme est toujours en early-stage. Cependant, je serai très intéressé pour avoir votre feedback, voir des premiers utilisateurs.

9 « J'aime »

Hello, c’est peut-être indiscret mais tu utilises quoi comme techno en back? Si c’est confidentiel, juste une petite explication de comment ça fonctionne concrètement?

Sinon beau travail, c’est vraiment une bonne idée je trouve et pour un proof-of-concept ce que tu montres déjà est vraiment cool!

Good job!

Salut. Merci pour le feedback!

Le back-end est presque exclusivement en java, avec un brin de JS pour piloter Chrome Headless. Le tout est déployé sur Heroku + AWS.

Pour la partie algorithmique, c’est essentiellement du code custom avec un appui sur Jsoup (https://github.com/jhy/jsoup) et Smile (https://github.com/haifengl/smile).

Merci Benoit pour ta contribution au monde du scrapping :slight_smile:
En voyant ton outil, je ne peux m’empêcher de penser à import.io
Que souhaites-tu faire avec ? Monétiser, agréger des données, pour le plaisir ?

Salut Vivian,

Oui, il y a clairement beaucoup de rapprochement avec import.io, ainsi que diffbot.com. Cependant, ces 2 outils sont assez cher et sans plan gratuit. De plus, je n’arrive pas à répondre facilement à certains de mes use-cases, comme la conversion d’un site entier vers un fichier tabulaire (cette fonctionnalité n’est pas encore disponible non plus sur ma plateforme, c’est mon objectifs suivant).

L’effort derrière cormoran.io est motivé par plusieurs applications que j’envisage de développer (e.g. application de suivi de prix (bien qu’en vérité, les algorithmes de cormoran.io ont d’abord été codé pour scrapper exclusivement des prix sur internet), ou bien l’agrégation de plateformes de crowdlending). Ayant été contacté plusieurs fois pour des sujets de scrapping, il m’a semblé pertinent de wrapper tout cela derrière une plateforme. Ma volonté est effectivement de monétiser cette plateforme.

2 « J'aime »

Merci pour ton outil Benoit.
Franchement c’est un super début!!
Hate de voir la suite

Ca a l’air pas mal mais il faudra accélérer un peu tout ça :wink: (ou alors je suis tombé dans une boucle infinie :confused: )

Hello à tous.

Il est apparu qu’il pouvait être difficile avec Cormoran.io d’accéder aux données protéger par des credentials, ou bien requérant des actions utilisateurs complexes (e.g. Cormoran.io sait gérer des méchanismes génériques tel que l’infinite-scrolling, mais il peut avoir des difficultés à comprendre qu’un bouton va triggerer le loading de contenu additionnel).

J’ai donc préparé une extension Chrome https://chrome.google.com/webstore/detail/cormoranio/fjanaebbjnnkcfheecieagnehehfbfbb?hl=fr qui permet d’envoyer le contenu de la page courante à Cormoran.io pour scrapping.

Cela permet par exemple de récupérer les membres d’un groupe facebook (l’extension Chrome facilite le déroulage de l’infinite-scrolling, puis envoi contenu pour scrapping).

Encore une fois, je serai très intéressé pour avoir votre feedback. Merci pour vos retours !

Hello Benoit,

Merci pour ton extension ! J’ai essayé de l’utiliser mais pas moyen d’obtenir plus de 21 profils fb (sur un groupe de 2 500+ personnes). Je l’ai lancé une première fois (ce qui a permis d’aller jusqu’au bout de la liste) puis une seconde et j’ai relancé donc je ne comprends pas pourquoi tous les profils ne s’exportent pas.

Par rapport au test sur un site, il détecte bien les datas que je souhaite (tel / code postal / email) sans que je les ai choisies ce qui est top :slight_smile: par contre impossible de les exporter sous csv (le fichier est vide excepté pour une cellule « url »)

Camille

Top ton outil ! merci

Je n’arrive pâs à avoir acces au fichier , on me demande de s’enregistrer mais quand je le fais on me dit qu’il faut une autorisation de l’administrateur

Comment faire ?

Sinon l’idée est parfaite !

Bonjour à tous et @Benoit_Lacelle.
Je viens de faire un tour sur votre Hello_world qui semble très bien fonctionner.
Mais je ne suis pas en mesure de télécharger le résultat (ou de l’ouvrir dans un Gsheet par ex).
Une idée?
Merci!

Bonjour @davidc .

Suite à ma transition sur un autre projet, j’ai simplifié cette maquette et l’ai drastiquement accéléré. Malheureusement, il apparaît que le téléchargement sous forme de fichier ne soit plus disponible. Si un développeur VueJS est motivé, je peux ouvrir l’accès au projet.