Ma boîte à outils secrète pour scraping : Youtube, Twitter, Google, Amazon...

PrJohnsen · Novembre 11, 2020, 10:25

Hello

Qui a dit que les universitaires en sciences sociales étaient inutiles ? Voici un ensemble d’outils développer par le DMI

Le Digital Methods Initiative est l’un des principaux groupes de recherche en études Internet en Europe.

Quelques outils qu’ils ont développé :

The Amazon Book Explorer ici : Co-word anaylsis of book titles, Classification mapping
Amazon Related Product Graph ici : Ce script PHP vous permet de saisir un (ensemble de) ASIN et d’explorer ses recommandations jusqu’à une profondeur spécifiée par l’utilisateur.
Compare Lists URL ici : Comparez deux listes d’URL pour leurs points communs et leurs différences.
Discus Comment Scraper ici : Cet outil scrappe les fils et les commentaires des sites Web utilisant le système de commentaires Disqus.
Expand Tiny Urls ici : Développe les URL qui ont été raccourcies par des outils tels que tinyurl.com ou bit.ly. Souvent utilisé dans les médias sociaux tels que Twitter ou Facebook.
Geo IP ici : Traduit les URL ou les adresses IP en emplacements géographiques
Google Autocomplete ici : Récupère les suggestions de saisie semi-automatique de Google
Harvester ici : Extraire les URL du texte, du code source ou des résultats des moteurs de recherche. Produit une liste propre d’URL.
Image Scraper ici : Scrape images from a single page.
Issue Dramaturg ici (Nécéssite une demande de compte au DMI) : Saisissez des URL’s ainsi qu’un mot clé. Le Issuedramaturg interroge Google pour le mot clé, et affiche les Pageranks des URL au fil du temps. La sortie est un graphique du Pagerank des URL par requête.
Link Ripper ici : Récupérer tous les liens internes et / ou les liens sortants d’une page.
Text Ripper ici : Extrayez tout non-html (c’est-à-dire le texte) d’une page spécifique.
News Agencies Scraper ici : Rechercher à partir de mots-clés et extrayez les titres, les images, les dates et le texte intégral des sites des agences de presse.
Source Code Search ici : Charger une liste d’URLs et rechercher des patterns/mots-clés dans le code source de la page
Tracker Tracker ici : un outil pour détecter dans un ensemble d’URL les empreintes digitales prédéfinies des technologies de suivi Web connues (Hotjar, Facebook, Heap etc.) .
TumblrTool ici : Ce script récupère les articles tagués avec un terme spécifique de tumblr
Twitter Capture and Analysis Toolset ici (Nécéssite une demande de compte au DMI) : Récupère les tweets et permet de multiples analyses (hashtags, mentions, utilisateurs, recherche, …)
YouTube Data Tools ici : Récupérer toutes les informations sur la chaîne, Réseau de la chaine avec les autres chaines, Réseau de relations entre vidéos via la fonctionnalité « vidéos associées » de YouTube, à partir d’une recherche ou d’une liste d’identifiants vidéo. Part d’un identifiant de vidéo et récupère les informations de base de la vidéo en question et fournit un certain nombre d’analyses de la section des commentaires.
iTunes App Store Scraper ici : Un outil pour extraire les détails des applications individuelles, collecter leurs applications associées et récupérer une liste d’applications pour un mot-clé donné.
Twitter Explorer ici : Pour observez Twitter via des réseaux interactifs.

PS : Certains outils comme Netvizz (scrapping du réseau Facebook, des commentaires d’une pages, etc.) sont devenus obsolètes D’autres nécessites une demande préalables au DMI en bonne et du forme. D’autre encore nécessite la toolbar firefox de DMI ou Gephi pour mieux comprendre les résultats

PLUS ENCORE ICI : ToolDatabase < Dmi < Foswiki

D’autres universitaires français

Le medialabs :

Navicrawler ici : Crawler web reposant sur la navigation humaine par l’utilisateur sur le web : lorsqu’il est activé, il enregistre chacune des pages visitées ainsi que l’ensemble des liens trouvés dans celles-ci. Il permet également de catégoriser les sites puis d’exporter le réseau des liens agregés entre ceux-ci
Cortext Manager ici : Un très puissant outil de data analyse et de texte mining

Comme je n’avais pas suffisamment d’une seul vie pour utiliser ces outils je vous les partages.
Maintenant votre imagination est la seul limite.

LioCorText · Novembre 12, 2020, 10:45

Bonjour PrJohnsen,

Excellente liste ! Un outil assez sympa du Medialab est Hyphe.

Merci d’avoir mentionné CorText Manager. Peut-être juste une précision, CorText Manager est porté par le LISIS, un laboratoire de recherche de l’INRAE, ESIEE Paris, du CNRS et de l’Université Gustave Eiffel. Et non par le Medialab.

Ce qui va être intéressant avec CorText Manager, c’est l’intégration de plusieurs outils assez différents d’analyse dans une même interface web: text mining, social network analysis, et plus récemment autour de la géographie.

Bon scraping!
L

Pedrodebdx · Novembre 23, 2020, 12:19

merci pour ce partage

Meeko · Novembre 29, 2020, 7:55

Merci pour le partage vraiment

JessyNH · Septembre 19, 2024, 1:22

Merci beaucoup pour ce partage

DEW-Automatisation · Septembre 20, 2024, 1:26

Merci c’est top