Le Fotolia/Theme Forrest de la Data ?

Bonjour à tous les GH,

Je m’apprête à lancer une marketplace de type Fotolia / Theme Forrest et autres… de la Data.

Bref vendre des données (sous formes de tables) assez « grand public », prêtes à l’emploi, nettoyées de toutes infos parasites pour des utilisations/besoins éditoriaux ou fonctionnels… quelques exemples de tables de données :

  • 100 comptes Twitters des journalistes/blogueurs Tech
  • Villes + Codes postaux + Régions + Données GPS
  • Liste de vainqueurs de Roland Garros
  • (et par extension) Liste des joueurs espagnols vainqueurs de Roland garros
  • Données démographiques et issues de data.gouv mais nettoyées
  • Critères d’achat d’un disque dur
  • Liste des meilleurs lava linges selon Que choisir 2016
  • Liste des coiffeurs en France / par département
  • Liste de mots + synonymes proches + synonymes connexes
    etc…

Je sais bien que toutes ces données sont accessibles sur le Web et plus ou moins scrapables… Mais l’idée étant de faire gagner du temps à nos futurs clients et notamment les alerter quand y’a des mises à jours…Le format d’export serait soit du sql, xls, xml… Et bien sûr les tarifs seraient relativement accessibles selon travail de récupération et volume de données…(entre 2€ et 50€ la table)… Avec en sus une prestation de service pour récupérer des données à la demande…

Restent certains problèmes de copyright sur la récupération de certaines données sur le Web, mais en les rendant brutes et en leur apportant un peu de valeur ajoutée, je pense qu’on pourrait contourner le problème… Et bien sûr pas on ne traiteraient pas les données confidentielles liées aux personnes, données internes aux entreprises ou à l’état : on n’est pas Wikileaks !

La V2 selon succès permettrait à des tiers d’héberger et de revendre leurs propres données…

Bref, pour résumer : 3 questions pour lancer notre MVP :

  • Que pensez vous du concept ?
  • Seriez vous acheteurs ? et de quelles données auriez vous besoin ?
  • Existe t-il déjà des marketplaces dans ce style ?

Merci pour vos précieux feedbacks :wink:

1 J'aime

si la Cnil valide çà, je trouve que c’est une bonne idée

1 J'aime

Salut (très rapidement),

  1. Excellent & compliqué. Comment mettre à jour les bases ? Par exemple, je suis pas certain que la liste des « coiffeurs en France » est 100% scrappable.

Je pense que les clients potentiels sont des petits annonceurs qui souhaitent faire de la pub ciblée (je suis acheteur). Par contre j’ai un peu plus de mal avec « la liste des meilleurs lave linges ».

2-3) J’ai besoin de la liste des agences web sur la région Bretagne, je suis prêt à payer. D’ailleurs j’en profite pour poser une question: « puis-je me rendre à la CCI pour obtenir cette liste gratuitement ? »

Hello Franck,

Ben la CNIL fait surtout chier sur les données perso non ? Tout ce qui est librement lisible/affiché accessible sur le Web, c’est moins son problème du moins en tant que Gendarme…
Mais de toute façon oui il faudra récupérer proprement, transformer / nettoyer, et si possible apporter un peu de valeur pour ne pas faire du vol de données…

hello @NicolasRuntz

Oui certaines bases n’auront pas de mises à jour, mais des dates d’expiration : ex : liste des vainqueurs de Roland Garros au 1er juin 2016 :wink:

Encore une fois, oui oui la plupart des données sont publiques, accessibles, facilement crawlables pour certaines et qui plus est gratuites…

Notre valeur ajoutée est ailleurs : gain de temps car clés en main (déjà récupérées, nettoyées, bien formatées, prêtes à être plugués dans n’importe quelle BDD)… et relativement abordables…

Pour ton besoin d’agences Web sur la Bretagne : ça peut se faire à la main car effectivement difficile de trouver des annuaires…
La question serait de savoir si tu serais prêt à payer un presta pour le faire, à payer selon un volume (on ne garantira jamais l’exhaustivité sur ce type de recherche…) et si oui combien la ligne ? = je construis mon Business model en ce moment :wink:

Personnellement j’ai scrappé les adresses e-mail des étudiants de la région en faisant un combo linkedin (nom + prénom) + reconstruction d’email à partir du pattern facilement trouvable.

Je me retrouve avec un spreadsheet propre de 5000 étudiants que j’utilise même pas car on a pivoté. Si une plateforme me propose de le mettre en vente ou de l’échanger contre une autre base je suis preneur à 100% (mais ça change ton BM en système de commission).

Pour les web agency j’ai fais ça à la main et c’est très long ! Je suis persuadé qu’une personne l’a déjà fait mais il n’existe pas de plateforme pour retrouver ça. Imagine un monde où je peux contacter des entrepreneurs qui ont la même cible que moi sans être des concurrents directs :sunny: on pourrait s’échanger / se vendre du leads ! Combien de personnes ont scrappées (perdu du temps) les mêmes données ? Il y a un truc à faire ici.

Question prix c’est compliqué à établir, tout est une question de temps et du prix de ce temps pour le prestataire. Sur mon spreadsheet des agences, j’ai des informations « valuable » comme les noms de 2/3 décideurs (cette information se récupère en visitant le site et en fouillant sur linkedin: j’ai mis beaucoup de temps et ça coûte cher). A titre perso je dirais 1€ la ligne mais c’est vraiment mon sentiment personnel (j’ai aucune idée des prix).

@NicolasRuntz : merci pour ce retour d’expériences… je continue à creuser le modèle :

Pas de soucis pour passer par un système de commission pour la V2 (marketplace ouverte aux offreurs)… ce n’est pas le plus dur à gérer mais plutôt les aspects copyright et comment il s’est procuré légalement les données…

Bonne idée.
après, faut passer la CNIL et les droits de reproduction (le scraping c’est pas top côté réglementation)

Mais si tu passes en marketplace, ta plateforme ne craindra rien (concernant la réglementation) et ca sera une histoire entre les acheteurs/vendeurs

Ma principale crainte avant d’acheter serait la validité & fraicheur des données. Mais avec un système de rating, ca pourrait le faire

Il va falloir vérifier un minimum les bases pour évaluer ça. Les marketplaces ont toujours des « risques légaux » (que je me suis toujours posé) et j’ai jamais entendu quoi que ce soit.

Si je vends un ordinateur volé sur leboncoin ?
Si un tueur en série sans permis s’inscrit sur blablacar ?
Si une personne utilise mon appartement comme laboratoire de fabrication de méthamphétamine sur airbnb ?

La réponse doit tenir en 3 lettres: CGU

Bon j’retourne travailler moi :smile:

1 J'aime

Je posais la question, mais j’en sais rien en faite.

j’ai déjà scrappé les agences web en Bretagne si tu veux. Un peu normal pour quelqu’un qui a une agence web en Bretagne :slight_smile:

Service un peu similaire à ton idée : https://www.prhunters.com/
La version gratuite est vraiment cheap voir quasi inutilisable.

Concernant ton projet, même remarque, pas certain que les journalistes soient ok pour se retrouver sur des plateformes payantes.

Bonjour,
Concrètement, d’après le type de sujets que vous annoncez, la réponse existe déjà dans wikipedia (pour les trucs du type joueur de tennis) ou dans les pages jaunes (pour les agences web) ou dans un des x vendeurs de fichiers qui existent ( listingpro.fr par exemple pour les 55000 et quelques coiffeurs de France ou autres).
Le problème va être de gagner assez d’argent pour faire face aux plaintes et procès que ne manqueront pas de faire les gens mentionnés sur les fichiers ET les concurrents potentiels qui existent déjà.
ce n’est pas un hasard si les vendeurs/loueurs de fichiers appartiennent à des grosses boîtes, qui ont le service juridique apte à répondre d’aller se faire f… aux x recommandés et menaces qui arrivent chaque semaine quand on tente de faire commerce de ceci.
Bonne chance

1 J'aime

Bonsoir,

Personnellement, je ne vois pas la valeur ajoutée pour un utilisateur d’avoir des informations du type "[quote=« Renaud, post:1, topic:4888 »]
Critères d’achat d’un disque dur
[/quote][quote=« Renaud, post:1, topic:4888 »]
Liste des meilleurs lava linges selon Que choisir 2016
[/quote]

Maintenant, je pose juste une question mais qui est ta cible ? Qui va venir chercher de la data sur votre marketplace ? Pourquoi, je n’irai pas sur une marketplace demander à un malgache ou un indien de me scraper des centaines de millier de lignes pour 12 USD ? En plus ne s’agissant pas de la source, je n’ai jamais la garantie mise à part tes dires, que la curation est à jour…

Enfin, les personnes qui seraient susceptibles d’utiliser ton service savent déjà où aller chercher l’information et la scraper directement, tu penses pas ? A moins que j’ai loupé un épisode sur ta cible. C’est qui qui va venir commander de la données ? Le scraping est devenu une commodité. De plus, des tools pour newbie il y a en à foison…

Enfin de façon super bienveillante, je trouve que l’idée n’est pas bonne du tout (en tout cas pas sur la base de ce que tu nous décris)… Good luck!

C’est vrai que vendre la liste des meilleurs lave linges n’est pas très interessant… :wink:

Concernant le projet, je trouve assez pratique (d’un point de vue acheteur et vendeur) une marketplace ou l’on pourrait acheter/vendre de la data

Par exemple, si je scrape un site A, ca serait intéressant de vendre cette data. Alors oui, le vendeur peut également le scraper par lui même, mais pas tout le monde ne sait scraper : il faut savoir développer ou bien connaitre un outil, savoir utiliser des proxies, voire savoir utiliser des anti-captcha. En plus, ca prend du temps.
Donc si je commence à scraper B, et que klk1 vend déjà cette data, je suis preneur, cela me fera gagner du temps

@aldo « des tools pour newbie il y en à foison » : pas trop non plus. Ces outils sont pratiques pour des sites basiques.
Pour les sites plus complexes, et donc pour lesquels la data a plus de valeurs, ces outils sont limites.
Sauf si tu as trouvé un outil magique, et je suis preneur :wink:

Salut !

Perso je trouve l’idée bonne, je ne connais rien dans ce genre et j’avoue que si je pouvais récupérer la liste des contacts (téléphones, email) des magasins de musique en France ça m’intéresserait :slightly_smiling:

Merci à ceux qui me challengent sur l’intérêt d’une liste sur les meilleurs lave linge du moment :wink: mais croyez moi y’a des webmasters que ça pourraient intéresser :wink:

Encore une fois : 90% de l’info est librement accessible et gratuite sur le Web… et oui il suffit d’avoir soit des petites mains, soit des méthodes de scrapping pour les récupérer…

Nous ce qu’on vendrait : c’est le clé en main, pas cher, nettoyé et certifié… !

  • pour ceux qui ne veulent pas se prendre la tête à inventer des modèles de scrapping
  • pour ceux qui n’ont pas le temps ou l’argent ou l’équipe pour le faire le déléguer
  • pour ceux qui ne connaissent pas le growthhacking, pour les newbies…
    etc…

Je ne vous promets pas d’en faire un site mainstream non plus, mais si ça peut faire une source de revenu récurrente supplémentaire pour des spécialistes de la data ou des agences qui le font déjà pour des demandes clients…why not non ?

J’étudie le coût de ce side projet, j’en parle à quelque partenaire potentiel et je vous montrerai le MVP pour feedbacks :wink:

Par contre ne focussez pas non plus que sur des data à but prospectif / emailing / phoning… y’a des spécialistes pour ça qui louent leurs services et leurs bases d’emails …

Et par déontologie et pour des problèmes légaux, je ne me lancerai de toute façon pas dans la publication de données et d’emails perso…

++