[PROJET] Scraping API

Bien le bonjour les pirates de la croissance :money_mouth_face:

Je développe actuellement une API « tout-en-un » pour scraper le web sans se prendre la tête. Si je pouvais la résumer en 4 points:

  • Requetes:
    • Spécifiez l’URL, et éventuellement la méthode HTTP, des cookies, des données (json ou formulaire).
    • Jusqu’à 3 requêtes par appel API (à condition qu’elles pointent sur des noms de domaine différents)
  • Proxy Indétectable: Un Proxy rotatif uniquement basé sur des IPs résidentielles (seulement en France pour le moment). Indétectable par les systèmes anti-bot.
  • Extraction des données via des sélecteurs CSS / jQuery, avec possibilité d’itérer une liste d’élements et de filtrer ces données. Pour le moment j’ai inclu deux filtres:
    • URL: Vérifie si l’adresse URL est correcte et la transforme en url absolue si besoin
    • Prix: Extrait le premier prix trouvé dans une chaine de caractères (montant et devise)
  • Réponses: URL finale (après les redirections s’il y en a), le code de status HTTP, et selon les options: les headers, le code HTML et les données extraites

A l’origine je l’avais développé pour un projet perso (qui est devenu un projet sérieux) parce que les solutions existantes (scrapingant, proxycrawl, etc …) me convenaient pas:

  • Temps de réponse trop long
  • Pas de possibilité d’extraire les données, ou alors c’est trop limité
  • Certains sont trop chers

Ce qui n’est pas supporté:

  • Rendu JS

Les fonctionnalées envisagées:

  • Choix du pays pour le proxy
  • Extraction des métadonnées de la page via Json-LD
  • Choix du type d’appareil (ordinateur ou mobile)
  • Extracteurs préconfigurés pour les sites les plus demandés (résultats Google, produits Amazon, …)

Actuellement ça fonctionne bien, il y a juste quelques progrés à faire sur la vitesse de réponse (~ 11s) mais je suis persuadé de pouvoir descendre à 4-5 s (sans l’extraction des données).

Avec ça je développe une librairie Nodejs pour faciliter la prise en main de l’api.

Voilà ! Je ne suis pas venu ici pour le vendre (de toute façon l’API n’est pas encore en ligne), mais uniquement pour connaitre vos impressions, et savoir - selon vous - quels seraient les points à améliorer ou à approfondir.

Merci de m’avoir lu

3 « J'aime »

Une bonne idée serait quelques semaines de beta test pour avoir des cas d’usage ou identifier des dysfonctionnements concrets. C’est difficile de juger du slideware plus simple de juger un produit.

2 « J'aime »

Bonne idée ton projet :clap:

1 « J'aime »

J’envisage de la publier en bêta gratuite sur rapidapi vers le mois de décembre.
Lorsque sa fiabilité aura été prouvée et que ça aura bien mûri, je laisserai sûrement un nombre de requêes gratuites par mois (500 ? à voir).
Par la suite j’aimerai me détacher de RapidAPI vu que le temps de réponse est ralenti de quelques centaines de ms

1 « J'aime »

Merci Josselin :fire:

Sacré bundle :fire: ça peut éviter pas mal de configs et de tests :grin: à suivre :call_me_hand:

1 « J'aime »

Bonjour @Decentraliseur

Super projet ! Je suis à la recherche d’un growth manager. A la lecture de ce post, j’ai pensé à vous.

Seriez-vous intéressé?

Merci!

1 « J'aime »

RapidAPI ça fonctionne bien mais ils prennent un bon % sur l’abonnement. :sweat_smile:

1 « J'aime »

J’ai pas encore eu le temps de regarder (ces indications sembles êtres assez « discretes » …)
Tu sais c’est autour de combien ?

Je t’envoie mon Discord pour te donner mon feedback

Bonjour,

Faisant également quelques APIs de scraping pour arrondir les fins de mois sur RapidAPI et que l’information peut être utile pour les autres, tu dois compter 20 % de frais. Mais ce n’est pas terminé :wink: . Paypal en rajoute une petite couche.
Pour faire simple.
Sur 60$ d’abonnement RAPIDAPI me rétrocède 48 $ et après le passage de Paypal il me reste 45 $
Ci-dessous les captures

RapidAPI + Paypal

Et pour terminer, RAPIDAPI applique un délai d’environ +/- 30 jours pour te faire les virements.

Je te souhaite le meilleur pour ton projet.

2 « J'aime »

Sans oublier l’URSSAF pour les plus vaillants :laughing:

2 « J'aime »

Merci pour vos retours, eh bah ça fait cher l’acquisition tout ça :thinking:
Bien pour se lancer, mais tout compte fait je crois bien que je vais intégrer les offres payantes et le rate limit dans mon backend … Une fois que la solution en tant que telle sera bien opérationnelle (le mois de décembre on y croit !)

Et pour l’urssaf … Faut le temps d’y réfléchir haha

En effet, tout le monde se rince :), mais pour se lancer et sonder le marché c’est pas mal.
Pour faire une implémentation coté back, je peux te proposer l’utilisation de de l’API Gateway d’Amazon. https://aws.amazon.com/fr/api-gateway/.

Cordialement,