Scraping site web - Recherche expert


#1

Bonjour à tous,
Dans le cadre d’une mission client, j’aurai besoin de scaper le site internet suivant: www.pflege-navigator.de
Ce site répertorie l’ensemble des établissements de santé Allemand.
J’aurai besoin de la liste des établissement avec les informations présentes dans les différentes fiches. est ce que quelqu’un pourrait m’aider?
Exemple 1: resultat de requete sur berlin https://www.pflege-navigator.de/index.php?module=nursinghome&action=list&multi=Berlin&hiddenCoords=&id=&ambit=5&type=1&focus=0&flagMapDragSearch=0&extSearchEntgelt=0+-+200%2B+Euro&extSearchNameOfPflegeheim=&extSearchSortierung=distance&extSearchTBVersion=2017&extSearchSortierungSort=&extSearchSortierungSelect=&extSearchAktualisierung=unbegrenzt
Exemple 2: fiche établissement https://www.pflege-navigator.de/index.php?module=nursinghome&id=24711&city=&multi=Berlin&hiddenCoords=&zip=&ambit=5&order=asc&extSearchAktualisierung=unbegrenzt&flagMapDragSearch=0&extSearchEntgelt=0+-+200%2B+Euro&type=1&focus=0&FLAG_JOIN=AND&extSearchSortierung=distance&extSearchSortierungSort=&extSearchSortierungSelect=&extSearchTBVersion=2017&&start=0

Par avance, je vous remercie de votre retour.

Grégory


#2

Bonjour Grégory,

As-tu des compétences techniques, de dev?

Ici la solution la plus efficace c’est de faire un script qui va:

  • 1: Générer la liste des inputs, dans ton cas il s’agit de la liste de toutes les villes pour lesquelles tu souhaites récupérer des infos.
  • 2: Pour chaque ville, injecter son nom dans le formulaire
  • 3: Submit le formulaire de recherche
  • 4: Parcourir la page de résultat et gérer la pagination, ici via clics sur le bouton “Afficher plus de maisons de retraite” (Weitere Pflegeheime anzeigen)
  • 5: Pour chaque résultat, naviguer sur la page de la maison de retraite correspondante, et extraire les informations présentes
  • 6: Répéter les étapes 2, 3, 4 et 5 jusqu’à avoir atteint la fin de la liste des villes à gérer

Sans compétences min. en dev et scraping, c’est possible que tu y passes beaucoup de temps, mais tu peux facilement sous-traiter et marger sur cette tâche.


#3

Merci pour ta réponse :slight_smile:
je te confirme ne pas être dev… c’est exactement le cheminement auquel j’avais pensé… néanmoins, je n’ai pas le temps ni les compétences pour cette mission.
est ce que cela est dans tes cordes?
merci
Grégory


#4

Bonjour Grégory,

Je pense être en mesure de t’aider.

As-tu besoin d’un scrape one-shot ou plutôt une analyse régulière du site avec ses MAJ?

Il me semble que la bonne approche pour ce type de site serait scrapy, avec un enregistrement direct en BDD.

@ dispo pour échanger,

DL


#5

Ca l’est en effet. Je t’ai fais un MP il y a trois jours pour en discuter.
Bien à toi,
Xavier


#6

Pour un non dev, je pense que Zenno le fait aussi sans soucis. Mais c’est sur que tu gagneras ton temps (et ta marge) à faire sous traiter par un des experts ici présent :slight_smile:


#7

C’est vrai, même si il ne faut pas forcément toujours uniquement opter pour cette dernière solution.

Le plus compliqué pour faire ce choix, c’est de pouvoir mesurer le ratio temps passé/argent en le faisant soit même vs en sous traitant.

Autre situation: Si on doit extraire une info spécifique en provenance de 10K sites différents, vs une même info sur deux sites avec 10K pages chacun, alors dans le 1er cas une approche manuelle (foule, type Foule Factory ou Amazon Mechanical Turk) sera préférable alors que dans le second cas l’automatisation sera de mise.


#8

Hello Gregory,

je me suis permis de t’envoyer un message privé.
Tu y trouveras un échantillon de ce que j’ai pu extraire du site.

Bien à toi,

Gregory


#9

Hello les experts,

je propose un concours !

Un site, des donnees ?


#10

Linkedin, données des profils: toutes les données sans exception, ce qui implique d’interagir avec TOUS les boutons “voir plus”, etc…


#11

Hello,

Je connais un Dev qui fait ça. Pas cher. Mais faut lui expliquer en anglais. Dis moi si ça t’interesse


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr