Je développe actuellement une API « tout-en-un » pour scraper le web sans se prendre la tête. Si je pouvais la résumer en 4 points:
Requetes:
Spécifiez l’URL, et éventuellement la méthode HTTP, des cookies, des données (json ou formulaire).
Jusqu’à 3 requêtes par appel API (à condition qu’elles pointent sur des noms de domaine différents)
Proxy Indétectable: Un Proxy rotatif uniquement basé sur des IPs résidentielles (seulement en France pour le moment). Indétectable par les systèmes anti-bot.
Extraction des données via des sélecteurs CSS / jQuery, avec possibilité d’itérer une liste d’élements et de filtrer ces données. Pour le moment j’ai inclu deux filtres:
URL: Vérifie si l’adresse URL est correcte et la transforme en url absolue si besoin
Prix: Extrait le premier prix trouvé dans une chaine de caractères (montant et devise)
Réponses: URL finale (après les redirections s’il y en a), le code de status HTTP, et selon les options: les headers, le code HTML et les données extraites
A l’origine je l’avais développé pour un projet perso (qui est devenu un projet sérieux) parce que les solutions existantes (scrapingant, proxycrawl, etc …) me convenaient pas:
Temps de réponse trop long
Pas de possibilité d’extraire les données, ou alors c’est trop limité
Certains sont trop chers
Ce qui n’est pas supporté:
Rendu JS
Les fonctionnalées envisagées:
Choix du pays pour le proxy
Extraction des métadonnées de la page via Json-LD
Choix du type d’appareil (ordinateur ou mobile)
Extracteurs préconfigurés pour les sites les plus demandés (résultats Google, produits Amazon, …)
Actuellement ça fonctionne bien, il y a juste quelques progrés à faire sur la vitesse de réponse (~ 11s) mais je suis persuadé de pouvoir descendre à 4-5 s (sans l’extraction des données).
Avec ça je développe une librairie Nodejs pour faciliter la prise en main de l’api.
Voilà ! Je ne suis pas venu ici pour le vendre (de toute façon l’API n’est pas encore en ligne), mais uniquement pour connaitre vos impressions, et savoir - selon vous - quels seraient les points à améliorer ou à approfondir.
Une bonne idée serait quelques semaines de beta test pour avoir des cas d’usage ou identifier des dysfonctionnements concrets. C’est difficile de juger du slideware plus simple de juger un produit.
J’envisage de la publier en bêta gratuite sur rapidapi vers le mois de décembre.
Lorsque sa fiabilité aura été prouvée et que ça aura bien mûri, je laisserai sûrement un nombre de requêes gratuites par mois (500 ? à voir).
Par la suite j’aimerai me détacher de RapidAPI vu que le temps de réponse est ralenti de quelques centaines de ms
Faisant également quelques APIs de scraping pour arrondir les fins de mois sur RapidAPI et que l’information peut être utile pour les autres, tu dois compter 20 % de frais. Mais ce n’est pas terminé . Paypal en rajoute une petite couche.
Pour faire simple.
Sur 60$ d’abonnement RAPIDAPI me rétrocède 48 $ et après le passage de Paypal il me reste 45 $
Ci-dessous les captures
Merci pour vos retours, eh bah ça fait cher l’acquisition tout ça
Bien pour se lancer, mais tout compte fait je crois bien que je vais intégrer les offres payantes et le rate limit dans mon backend … Une fois que la solution en tant que telle sera bien opérationnelle (le mois de décembre on y croit !)
Et pour l’urssaf … Faut le temps d’y réfléchir haha
En effet, tout le monde se rince :), mais pour se lancer et sonder le marché c’est pas mal.
Pour faire une implémentation coté back, je peux te proposer l’utilisation de de l’API Gateway d’Amazon. https://aws.amazon.com/fr/api-gateway/.