Identifier chaine de caractères dans le code de sites internet

Bonsoir,

Voici ma requête :
Je cherche à déterminer si une liste de sites (dont j’ai les URLs) possèdent un extranet (fournit par un fournisseur de service).
Cela revient à rechercher la présence d’une certaine chaine de caractère dans le code source de l’une des pages de ces sites.
Et Donc :

1- Lire et naviguer sur des URLs (contenues dans un fichier sheet par exemple)
2- crawler le site (1 ou 2 niv de profondeur max) pour naviguer sur chaque page du site
3- Détecter s’il existe une certaine chaine de caractère dans le code source du site

J’ai tout d’abord pensé à phantombuster.
Mais je n’ai pas trouvé de phantom approprié (on peut scraper les emails, tels … Mais je n’ai pas trouvé comment déteter une chaine de caractère particulière).

J’ai ensuite essayé avec Make. Mais, là aussi, je ne vois pas d’application appropriée.

… Alors je me tourne vers vos lumières !

… Et vous remercie d’avance pour vos réponses !

Note : je cherche des outils nocode ; )

hello
si l’outil laisse un fingerprint, check du cote de builtwith

Bonjour, en outil no-code je voie pas trop puisqu’il s’agit quand même d’aller inspecter le code des pages du site, par contre en python je te fais çà très facilement, si c’est un besoin ponctuel, on peut en discuter, je pense que tu gagnera du temps à sous-traiter çà, dans la journée çà sera fait

Merci Felix pour ta réponse !

D’après ce que j’ai vu, BuiltWith détecte des solutions « connues » du marché. Mais pas les spécifiques. (?)
Sais-tu s’il est capable d’identifier une expression spécifique dans le code source ?

Je te remercie !

Merci Djousto pour ta réponse !

… Je suis certain qu’il doit exister des outils (nocode) adaptés !
Car il s’agit « juste » en fait de :
1 - Crawler une liste de sites
2 - Parser pour détecter une expression spécifique dans le code source de ces pages.

Je sais que cela est possible par exemple avec Make et un parser (j’y parviens sur une page spécifique)… A suivre !

Merci !

Pouvez-vous me donner un example ?
Je suis intéressé de faire des essais.
Par exemple : une URL, quelle chaîne de caractère ?
Je voudrais voir où se trouve les chaînes de caractère dans le source code, pour voir si la fonction de trigger peut répondre à votre besoin.
ici c’est une introduction de trigger d’octoparse.

J’ai utilise ca il y a quelques années : https://www.nerdydata.com/
J’imagine que c’est encore efficace

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.