API pour récupérer le code source


#1

Hello les GH,

Je cherche un outil me permettant via une API (ou une librairie PHP) de récupérer le code source d’une page.

Connaissez vous quelque chose dans le style ?

Merci !

Raph


#2

Salut @Raphael_t,

Si c’est pour détecter une technologie utilisé par le site présente dans le code source, tu peux utiliser l’api de similartech : https://www.similartech.com/api


#3

Pas mal, mais je cherche vraiment à récuperer un élément du code source.

Pour tout te dire, je cherche à trouver le Facebook ID à partir de l’username comme le font findmyfbid.com, lookup-id.com,

J’ai remarqué que quand je vais sur un profil privé par exemple https://www.facebook.com/raphaelazot , mon ID existe dans le code source, et j’aurai souhaité la récupérer !

Merci


#4

Tu peux simplement utiliser PHP + CURL, si tu le souhaites il existe de très simples tutoriaux en lignes pour ça. Quelques lignes de code, et c’est réglé :slightly_smiling:


#5

PHP avec cURL le fait tres bien…et gratuitement :wink:


#6

Tu peux utiliser la fonction XPathOnUrl de Seotools :

=Dump(XPathOnUrl("https://www.facebook.com/zuck";"//*[@id=""facebook""]/head/meta[7]";"content"))

Bon après dans le résultat, tu bricoles avec excel pour extraire la chaine de caractère après “entity_id”:"


#7

Merci,

Je vous tiendrais au courant !


#8

Et si tu as besoin de faire des extractions plus poussées dans le code source, tu peux utiliser cette librairie : PHP Simple HTML DOM Parser
http://simplehtmldom.sourceforge.net/


#9

Hello @Raphael_t,

Le click droit voir les sources de la page ne fonctionne pas dans ton navigateur ?


#10

Pour de l’extraction poussée et maîtrisée, je recommande fortement d’éviter ce genre de parser DOM. Une librairie bien plus simple et se comportant comme jQuery, en PHP: https://github.com/technosophos/querypath


#11

Lol. :slight_smile: Je vais essayer oui


#12

moi aussi je vais essayer du coup ;), je ne connaissais pas cette librairie


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr