[PROJET] Scraping API

Bien le bonjour les pirates de la croissance :money_mouth_face:

Je développe actuellement une API « tout-en-un » pour scraper le web sans se prendre la tête. Si je pouvais la résumer en 4 points:

  • Requetes:
    • Spécifiez l’URL, et éventuellement la méthode HTTP, des cookies, des données (json ou formulaire).
    • Jusqu’à 3 requêtes par appel API (à condition qu’elles pointent sur des noms de domaine différents)
  • Proxy Indétectable: Un Proxy rotatif uniquement basé sur des IPs résidentielles (seulement en France pour le moment). Indétectable par les systèmes anti-bot.
  • Extraction des données via des sélecteurs CSS / jQuery, avec possibilité d’itérer une liste d’élements et de filtrer ces données. Pour le moment j’ai inclu deux filtres:
    • URL: Vérifie si l’adresse URL est correcte et la transforme en url absolue si besoin
    • Prix: Extrait le premier prix trouvé dans une chaine de caractères (montant et devise)
  • Réponses: URL finale (après les redirections s’il y en a), le code de status HTTP, et selon les options: les headers, le code HTML et les données extraites

A l’origine je l’avais développé pour un projet perso (qui est devenu un projet sérieux) parce que les solutions existantes (scrapingant, proxycrawl, etc …) me convenaient pas:

  • Temps de réponse trop long
  • Pas de possibilité d’extraire les données, ou alors c’est trop limité
  • Certains sont trop chers

Ce qui n’est pas supporté:

  • Rendu JS

Les fonctionnalées envisagées:

  • Choix du pays pour le proxy
  • Extraction des métadonnées de la page via Json-LD
  • Choix du type d’appareil (ordinateur ou mobile)
  • Extracteurs préconfigurés pour les sites les plus demandés (résultats Google, produits Amazon, …)

Actuellement ça fonctionne bien, il y a juste quelques progrés à faire sur la vitesse de réponse (~ 11s) mais je suis persuadé de pouvoir descendre à 4-5 s (sans l’extraction des données).

Avec ça je développe une librairie Nodejs pour faciliter la prise en main de l’api.

Voilà ! Je ne suis pas venu ici pour le vendre (de toute façon l’API n’est pas encore en ligne), mais uniquement pour connaitre vos impressions, et savoir - selon vous - quels seraient les points à améliorer ou à approfondir.

Merci de m’avoir lu

2 « J'aime »

Une bonne idée serait quelques semaines de beta test pour avoir des cas d’usage ou identifier des dysfonctionnements concrets. C’est difficile de juger du slideware plus simple de juger un produit.

1 « J'aime »

Bonne idée ton projet :clap:

1 « J'aime »

J’envisage de la publier en bêta gratuite sur rapidapi vers le mois de décembre.
Lorsque sa fiabilité aura été prouvée et que ça aura bien mûri, je laisserai sûrement un nombre de requêes gratuites par mois (500 ? à voir).
Par la suite j’aimerai me détacher de RapidAPI vu que le temps de réponse est ralenti de quelques centaines de ms

Merci Josselin :fire:

Sacré bundle :fire: ça peut éviter pas mal de configs et de tests :grin: à suivre :call_me_hand:

1 « J'aime »