Web Scrapper - infos/bugs/help

Bonjour,

J’essaye de scrapper avec Web Scraper (je suis très débutante), et quelque chose m’échappe:

  1. Mes données exportées ne représentent même pas la moitié des données demandées
  • Pourtant lorsque je regarde mon graph: il est ok, et lorsque je regarde ce que je veux avec le data preview ET les éléments sélectionnés tout est ok.

Quelles sont les possibles raisons pour lesquelles seulement une partie de la données ne pourraient être récupérées?

Merci à vous !! :grinning_face_with_smiling_eyes:

Tu as une sitemap à partager ?

J’en ai moult en realité avec plusieurs liens différents mais toujours le même effet:

  • Elles sont toutes construites sur le même principe:
    Je suis sur la page générale, je vais sur une page entreprise, je récupère les infos dont j’ai besoin, et je clique sur un lien de la page (Job en l’occurence) et je récupère ce dont j’ai besoin.

{"_id":« welcome_test_6 »,« startUrl »:[" https://www.welcometothejungle.com/fr/companies?page=1&refinementList[sectors_name.fr.Santé%20%2F%20Social%20%2F%20Environnement][]=Environnement%20%2F%20Développement%20durable&refinementList[sectors_name.fr.Santé%20%2F%20Social%20%2F%20Environnement][]=Santé&refinementList[sectors_name.fr.Santé%20%2F%20Social%20%2F%20Environnement][]=SocialTech%20%2F%20GreenTech&refinementList[sectors_name.fr.Santé%20%2F%20Social%20%2F%20Environnement][]=Économie%20collaborative&refinementList[sectors_name.fr.Santé%20%2F%20Social%20%2F%20Environnement][]=Services%20à%20la%20personne&refinementList[size.fr][]=<%2015%20salariés"],« selectors »:[{« id »:« lien_page_entreprise »,« parentSelectors »:["_root",« pagination »],« type »:« SelectorLink »,« selector »:« a.sc-1cza0uq-8 »,« multiple »:true,« delay »:0},{« id »:« CompanyName »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« h1 »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Secteur »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« span.iiWnfE »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Ville(s) »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:".gEjFTi li:nth-of-type(2) span.sc-1qc42fc-2",« multiple »:false,« delay »:0,« regex »:""},{« id »:« Website »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorLink »,« selector »:« a.rwYrK »,« multiple »:false,« delay »:0},{« id »:« Réseaux_Sociaux »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorLink »,« selector »:« a.sc-1552bfn-6 »,« multiple »:true,« delay »:0},{« id »:« Année de création »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« li:nth-of-type(1) span.sc-1n18lhk-3 »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Collaborateurs »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« li:nth-of-type(2) span.sc-1n18lhk-3 »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Âge moyen »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« li:nth-of-type(4) span.sc-1n18lhk-3 »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Chiffre d’affaires »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:« li:nth-of-type(6) span.sc-1n18lhk-3 »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Présentation »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorText »,« selector »:"[data-position=‹ 32768 ›] p",« multiple »:false,« delay »:0,« regex »:""},{« id »:« pagination »,« parentSelectors »:["_root"],« type »:« SelectorLink »,« selector »:« li.ais-Pagination-item–page:nth-of-type(n+4) a »,« multiple »:true,« delay »:0},{« id »:« Job link »,« parentSelectors »:[« lien_page_entreprise »],« type »:« SelectorLink »,« selector »:« a[data-testid=‹ organization-nav-falselink-jobs ›] »,« multiple »:false,« delay »:0},{« id »:« job title « ,« parentSelectors »:[« Job link »],« type »:« SelectorLink »,« selector »:« article:nth-of-type(n+2) a »,« multiple »:true,« delay »:0},{« id »:« job type »,« parentSelectors »:[« job title « ],« type »:« SelectorText »,« selector »: »[data-testid=‹ organization-job-search-thumb-0 ›] li:nth-of-type(1) .sc-1qc42fc-2 span »,« multiple »:false,« delay »:0,« regex »: » »},{« id »:« Modalité travail »,« parentSelectors »:[« job title « ],« type »:« SelectorText »,« selector »: »[data-testid=‹ organization-job-search-thumb-0 ›] li:nth-of-type(2) .sc-1qc42fc-2 span »,« multiple »:false,« delay »:0,« regex »:""},{« id »:« Date publication »,« parentSelectors »:[« job title « ],« type »:« SelectorText »,« selector »: »[datetime=‹ 2021-10-13T15:58:33.718+02:00 ›] span »,« multiple »:false,« delay »:0,« regex »:""}]}

PS:
En fait ce qui m’agace le plus c’est le fait de ne pas comprendre d’où peut venir l’erreur. J’ai appris à utiliser l’outil, mais je pense avoir des connaissances qui ne sont pas assez solides. Alors je prends toutes les suggestions possibles :slight_smile:
Merci !

Hello, peut être les délais que tu as pour loader une page et entre les pages ne sont pas assez élevés.

Je les ai paramétrés à 58 sec chacun …

Salut @mcLois, je compte faire une petite API pour welcometothejungle, mp moi et on regarde ensemble pour que je t’aide :slight_smile: