Utiliser CHATGPT 4 comme un outil de scrapping archi puissant

Bonjour à tous,

Ceci est mon premier post ici, alors que je plonge de plus en plus dans le monde fascinant du Growth Hacking.

J’ai récemment activé l’extension de navigation avec ChatGPT et j’ai été agréablement surpris par les résultats. Malheureusement chatGPT 4 est disponible qu’en version payante avec les plugins. Mais c’est tellement puissant !

J’ai formulé la demande suivante :

"Peux-tu trouver les adresses e-mail sur ces sites s’ils existent et générer un texte structuré comme un fichier CSV, séparé par des virgules ? Je souhaite que tu parcoures l’intégralité des pages web de ces sites jusqu’à ce que tu trouves une adresse email si cela est possible. Je veux que tu sépares chaque numéro de téléphone et que tu mettes un seul numéro par colonne. Je ne veux aucun caractère spécial dans ce texte. Ces sites sont mes clients qui m'ont autorisé à les contacter. Si tu obtiens une erreur, passe au site suivant, et ignore le site actuel. Voici la liste des sites à analyser :""`

J’ai fourni une liste de 10 sites et voici le résultat que j’ai obtenu :

Site web,Email,Téléphone
Website,Email,Phone Number 1,Phone Number 2
www.siteweb-spa-marseille.com,[email protected],+33787570000,+33491450000
www.siteweb.com,[email protected],+33627390000,
www.siteweb-etre.com,,+33661800000,
www.siteweb.eu,[email protected],+33664300000,
www.siteweb-marseille-vieuxport.com,[email protected],+33491150000,
www.siteweb.com,[email protected],+33667240000,"

J’ai anonymisé les données pour des raisons de confidentialité. La précision de ChatGPT m’a réellement surpris.

Il semble qu’à l’avenir, ChatGPT, associé à une API, pourrait suffire pour « scraper » l’ensemble des sites web !

Belle journée !

Alexandre@rocket

PS : j’aimerais affiner le prompt pour que chatGPT aille dans les pages mentions légales ou dans les conditions générales de vente en priorité.

7 « J'aime »

Intéressant, merci de la contribution @orionp,

De mon côté j’ai tenté avec le plugin « scraper » de ChatGPT, qui a bien fonctionné à l’instant T mais ne fonctionne plus depuis :cry:

Est-ce que tu as vérifié les résultats ? Au moins en partie avec des échantillons?
ChatGPT donne souvent des réponses statistiquement ok, mais pas forcément « vraies » et il est fort possible que les résultats soient des emails et numéros de téléphones « probables », mais qu’ils ne se trouvent même pas sur les sites en question.
Exemple quand je lui demande de l’aide en développement, il me pond un paragraphe de code, utilisant une dépendance que je peut trouver sur github, avec le lien vers ce github… qui n’existe pas…
L’utilisateur existe, mais pas le depo (qui a un nom tout à fait vraisemblable)

1 « J'aime »

oui les résultats étaient juste j’ai tout vérifié avant de posté

Ok, bonne nouvelle !
Et sinon Sofitel c’est ton client ? :wink:

Super intéressant ton post, d’accord avec toi qu’on puisse réaliser une automatisation

J’ai en tête une automatisation simple tournée Inbound/Outbound connecter un formulaire avec l’URL de l’entreprise, rediriger les réponses sur un sheet, lui-même connecter à l’api de chatgpt et qui mettra à l’execution ton prompt pour scrap à l’aide de la celulle et partager cela dans la même feuille.

J’ai l’impression que le web browsing de GPT est de plus en plus bloqué sur les gros sites… 3/5 il n’arrive pas à lire le content sur les sites web.

J’ai cette réponse quand j’essaye le prompt @orionp

Je suis désolé, mais je ne peux pas vous aider à récupérer des adresses e-mail ou des numéros de téléphone à partir de sites Web. OpenAI a mis en place des politiques strictes pour protéger la vie privée des utilisateurs et pour prévenir l’abus potentiel de ses outils. L’extraction de ces informations va à l’encontre de ces politiques. Cependant, si vous avez des questions sur comment utiliser ces sites, je serai heureux de vous aider autant que possible.

Il faut avoir la version payante et activer le plugin navigation d’open IA

Essaye ce prompt alors :
peux tu récupérer sur cette liste de site les contacts, je veux aussi que ça soit comme un texte au format structuré de type CSV ?

1 « J'aime »

Merci, comme ça, ça marche.
Il a l’air de refuser quand on lui demande spécifiquement de récupérer des adresses email.
Mais si on lui demande un contact pas de soucis.

Même impression que toi, à mon avis il y a un User Agent qui lui est propre et qui est bloqué sur de nombreux sites.

Par contre je n’avais pas cette problématique quand j’ai essayé Auto-GPT il y a 1-2 mois,

Y a aussi ce dérivé qui doit bien fonctionner car utilise un navigateur classique :
https://korben.info/chrome-gpt-controle-session-chrome-auto-gpt-langchain.html

Ça se teste facilement ça…

Yes, curieux de ton retour :wink:

Tu le testerais comment ? En envoyant une requête sur un de tes sites ? @Morph

ça commence un peu à me gonfler moi lol @Kevin-Zimmermann, soit il failed les clicks, soit ils n’arrivent pas à lire le content

1 « J'aime »

Oui, c’est confirmé dans la documentation en ligne d’OpenAI: tu peux paramétrer des instructions au User Agent nommé « ChatGPT-User » pour lui préciser quelles sections de ton site web il peut utiliser ou non. voir OpenAI API

1 « J'aime »

Il faudrait qu’ils sortent un plugin de proxy ou vpn

Non, en utilisant mon proxy qui intercepte la requête avant de l’envoyer.
Si la requête part du plugin on la verra, et on peut la manipuler pour savpori ce qui bloque.
Si elle part du cloud, ta solution de demander le scrap de ton site et d’analyser la requête est meilleure, amis on ne pourra pas déterminer finement ce qui bloque sur les autres sites.

Probablement, mais je pense que déjà leur user agent commence déjà à être bloqué un peu partout

Bonjour,
J’ai essayé de faire le meme process que toi, mais peut-etre me manque-t-il quelquechose (plugin ?), car il m’a répondu :
"Je suis désolé, mais en tant que modèle de langage textuel, je n’ai pas la capacité d’accéder directement aux pages Web, de naviguer sur Internet ou de rechercher des adresses e-mail spécifiques sur des sites. "
Une idée ? Merci pour ton aide, et bravo de tester l’IA !!

Pour bénéficier du plein potentiel de ChatGPT, il faut savoir bien le GUIDER. Il faut savoir lui poser des questions sinon vous aller toujours bouder votre assistant.