Scraping sur le site : Les pépites tech

Bonjour tout le monde ! Je souhaiterai scraper le site : https://lespepitestech.com/ mais je suis un peu perdu avec tous les outils de scraping existant.

Qu’auriez-vous utilisé à ma place ? Je précise que je ne suis pas développeur, mais les outils no code ne me posent aucun problème.

À très vite !

Salut, as tu essayé Instant Data Scraper - Chrome Web Store

Nom : Instant data scraper.

Facile d’utilisation pas besoin de notion de code et rendu en fichier xls ou csv .

Fait un retour si tu as l’occasion de l’utiliser.

1 « J'aime »

Solution n°2 https://webscraper.io/

Une extension chrome facile d’utilisation aussi, après quelques tuto Youtube il n’aura plus de secret pour toi .

2 « J'aime »

Solution n°3 octoparse

2 « J'aime »

Solution n°4 piloterr en API, pour automatiser la récupération avec un zapier, make ou n8n (petite promo :saluting_face:)

1 « J'aime »

Sinon tu les as directement dans la page avec la requête POST qui donne un truc du genre :

{
	"results": [
		{
			"hits": [
				{
					"author": "Martin Cerbelle",
					"comment_count": 0,
					"created": "1674175306",
					"field_categorie": [
						"PROFESSIONNEL DE SANTE",
						"santé",
						"offres emploi",
						"Site emploi",
						"plateforme",
						"Actualités",
						"recrutement",
						"media"
					],
					"field_categorie_de_societe": "Media",
					"field_contact_email_pour_la_star": "[email protected]",
					"field_effectifs": "2 2 à 10 personnes",
					"field_frenchtech_hub_pepite": [
						"French Tech Bordeaux"
					],
					"field_gps_location:latitude": "44.855119",
					"field_gps_location:longitude": "-0.578580",
					"field_le_slogan": "Swala, c’est LE nouveau média dédié aux acteurs de la santé : que vous soyez candidat ou recruteur, trouver la perle rare n'aura jamais été aussi simple. Jobs, actus santé... C'est tout simplement la santé concentrée !",
					"field_lien:display_url": "http://www.swala.fr",
					"field_lien:url": "http://www.swala.fr",
					"field_location_taxonomize_terms": [
						"Bordeaux",
						"France"
					],
					"field_logo_de_votre_societe:file": "logo_couleur_avec_baseline_1.png",
					"field_logo_de_votre_societe:file:name": "logo_couleur_avec_baseline_1.png",
					"field_logo_de_votre_societe:file:url": "https://d3kqkuy1hpjocx.cloudfront.net/s3fs-public/logo_couleur_avec_baseline_1_0.png",
					"field_message_pour_noter_communa:value": "<p>Vous n’iriez pas chez un chirurgien tremblotant, alors pourquoi chercher un job sur un site vieillissant ? </p>\n<p>Swala, c’est LE nouveau média dédié aux acteurs de la santé. Nous avions à cœur de vous donner toutes les clés dont vous avez besoin pour trouver un job ou vous aider à recruter. SWAyez malins, et rejoignez cette nouvelle communauté !</p>\n<p>Vous cherchez le job de vos rêves ? 💼<br />\nParcourez de nombreuses offres d’emploi dédiées à vos métiers<br />\nCréez votre espace personnel pour postuler et suivre vos candidatures<br />\nTrouvez les meilleures offres grâce à l’algorithme de matching<br />\nDécouvrez les entreprises pour lesquelles vous postulez<br />\nAccédez aux dernières actualités de la santé </p>\n<p>Vous recrutez ? 🧑🏻‍⚕️<br />\nMettez en avant votre marque employeur, vos valeurs et vos engagements<br />\nPubliez vos offres d’emploi en toute simplicité<br />\nGérez facilement vos candidatures grâce à un outil de suivi performant<br />\nAccédez à une CVtèque dédiée à vos métiers<br />\nTrouvez les meilleurs candidats grâce à l’algorithme de matching </p>\n<p>La santé demande de l’énergie, n’en perdez plus dans vos recherches.<br />\nSwala, c’est tout simplement LA SANTÉ CONCENTRÉE 🩺</p>\n",
					"field_recherchez_vous_de_l_inves": "1 Oui, nous recherchons des financements ",
					"field_screenshot:file": "banniere_pepite_tech.png",
					"field_screenshot:file:name": "banniere_pepite_tech.png",
					"field_screenshot:file:url": "https://d3kqkuy1hpjocx.cloudfront.net/s3fs-public/banniere_pepite_tech_1.png",
					"field_stade_de_maturite": "2  Active",
					"field_votre_numero_de_siren": "918814013",
					"field_votre_secteur_d_activit_": [
						"Emploi",
						"Medias",
						"Santé"
					],
					"field_votre_secteur_d_activit_:field_taxo_english": [
						"Employment",
						"Media and Entertainment",
						"Health Care"
					],
					"field_votre_secteur_d_activit_:name": [
						"Emploi",
						"Medias",
						"Santé"
					],
					"search_api_language": "fr",
					"search_api_url": "https://lespepitestech.com/startup-de-la-french-tech/swala",
					"search_api_viewed": "<div id=\"node-25971\" class=\"node node-pepite-tech node-promoted clearfix\">\n\n  \n      \n  \n  <div class=\"content\">\n    <div class=\"field field-name-field-screenshot field-type-image field-label-hidden\"><div class=\"field-items\"><div class=\"field-item even\"><img src=\"https://lespepitestech.com/s3/files/styles/crop_picture_tinder/public/banniere_pepite_tech_1.png?itok=yeMPYkFA\" width=\"470\" height=\"246\" alt=\"\" /></div></div></div><div class=\"field field-name-field-votre-numero-de-siren field-type-text field-label-above\"><div class=\"field-label\">Votre numéro de SIREN:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">918814013</div></div></div><div class=\"field field-name-field-recherchez-vous-de-l-inves field-type-list-boolean field-label-above\"><div class=\"field-label\">Avez-vous des besoins de financement pour votre startup?:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Oui, nous recherchons des financements </div></div></div><div class=\"field-collection-container clearfix\"><div class=\"field field-name-field-personne-a-contacter-pour- field-type-field-collection field-label-above\"><div class=\"field-label\">Coordonnées de la personne à contacter pour la recherche de financement:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\"><div class=\"field-collection-view clearfix view-mode-full field-collection-view-final\"><div >\n  <div class=\"content\">\n    <div class=\"field field-name-field-invest-nom-et-prenom field-type-text field-label-above\"><div class=\"field-label\">Nom et prénom:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Martin Cerbelle</div></div></div><div class=\"field field-name-field-email field-type-text field-label-above\"><div class=\"field-label\">Email:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">[email protected]</div></div></div><div class=\"field field-name-field-fonction field-type-text field-label-above\"><div class=\"field-label\">Fonction:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Co-fondateur</div></div></div>  </div>\n</div>\n</div></div></div></div></div><div class=\"field field-name-field-contact-telephonique field-type-text field-label-above\"><div class=\"field-label\">Votre numéro de téléphone:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">0662949550</div></div></div>  </div>\n\n  <ul class=\"links inline\"><li class=\"comment_forbidden first last\"><span><a href=\"/se-connecter?destination=node/25971%23comment-form\">Connectez-vous</a> ou <a href=\"/creer-un-compte?destination=node/25971%23comment-form\">inscrivez-vous</a> pour publier un commentaire</span></li>\n</ul>\n  \n</div>\n",
					"status": 1,
					"title": "Swala",
					"url": "https://lespepitestech.com/startup-de-la-french-tech/swala",
					"objectID": "25971",
					"_highlightResult": {
						"author": {
							"value": "Martin Cerbelle",
							"matchLevel": "none",
							"matchedWords": []
						},
						"field_frenchtech_hub_pepite": [
							{
								"value": "French Tech Bordeaux",
								"matchLevel": "none",
								"matchedWords": []
							}
						],
						"field_le_slogan": {
							"value": "Swala, c’est LE nouveau média dédié aux acteurs de la santé : que vous soyez candidat ou recruteur, trouver la perle rare n'aura jamais été aussi simple. Jobs, actus santé... C'est tout simplement la santé concentrée !",
							"matchLevel": "none",
							"matchedWords": []
						},
						"title": {
							"value": "Swala",
							"matchLevel": "none",
							"matchedWords": []
						}
					}
				},
				{
					"author": "KARE EVENTS",
					"comment_count": 0,
					"created": "1674174116",
					"field_categorie": [
						"teambuilding",
						"Cohésion d'équipe",
						"éco responsable",
						"QVT",
						"QVCT",
						"Séminaire"
					],
					"field_categorie_de_societe": "Entreprise PME - PMI",
					"field_contact_email_pour_la_star": "[email protected]",
					"field_effectifs": "2 2 à 10 personnes",
					"field_gps_location:latitude": "48.856614",
					"field_gps_location:longitude": "2.352222",
					"field_le_slogan": "KARE EVENTS propose des teams building sur-mesure, adaptés à vos besoins et objectifs qui limitent l’impact environnemental et encouragent la solidarité. Ile-de-France et la région lyonnaise. ",
					"field_lien:display_url": "http://www.kareevents.fr",
					"field_lien:url": "http://www.kareevents.fr",
					"field_location_taxonomize_terms": [
						"Monsols",
						"France"
					],
					"field_logo_de_votre_societe:file": "logo_couleur_fond_blanc.png",
					"field_logo_de_votre_societe:file:name": "logo_couleur_fond_blanc.png",
					"field_logo_de_votre_societe:file:url": "https://d3kqkuy1hpjocx.cloudfront.net/s3fs-public/logo_couleur_fond_blanc.png",
					"field_message_pour_noter_communa:value": "<p>KARE EVENTS, le team building bon pour votre entreprise et la planète.</p>\n<p>89% des collaborateurs estiment qu’un team building à un impact positif sur leur travail. 75% des actifs seraient plus favorables à participer à un événement responsable. Suite à ce constat, KARE EVENTS est né.</p>\n<p>Chez KARE EVENTS, nous croyons à la création de moments uniques qui laissent une impression durable; c’est pourquoi nous vous proposons des teams building sur-mesure, adaptés à vos besoins et objectifs qui limitent l’impact environnemental et encouragent la solidarité. </p>\n<p>Contactez-nous pour que l’événement de vos rêves devienne une réalité. Nous intervenons sur l’Ile-de-France et la région lyonnaise.</p>\n",
					"field_recherchez_vous_de_l_inves": "1 Oui, nous recherchons des financements ",
					"field_screenshot:file": "banniere_lpt.png",
					"field_screenshot:file:name": "banniere_lpt.png",
					"field_screenshot:file:url": "https://d3kqkuy1hpjocx.cloudfront.net/s3fs-public/banniere_lpt_0.png",
					"field_stade_de_maturite": "1  Beta",
					"field_votre_secteur_d_activit_": [
						"Services aux entreprises"
					],
					"field_votre_secteur_d_activit_:field_taxo_english": [
						"Business services"
					],
					"field_votre_secteur_d_activit_:name": [
						"Services aux entreprises"
					],
					"search_api_language": "fr",
					"search_api_url": "https://lespepitestech.com/startup-de-la-french-tech/kare-events",
					"search_api_viewed": "<div id=\"node-26124\" class=\"node node-pepite-tech node-promoted clearfix\">\n\n  \n      \n  \n  <div class=\"content\">\n    <div class=\"field field-name-field-screenshot field-type-image field-label-hidden\"><div class=\"field-items\"><div class=\"field-item even\"><img src=\"https://d3kqkuy1hpjocx.cloudfront.net/s3fs-public/styles/crop_picture_tinder/public/banniere_lpt_0.png?itok=ZxBHOg7Q\" width=\"470\" height=\"246\" alt=\"\" /></div></div></div><div class=\"field field-name-field-recherchez-vous-de-l-inves field-type-list-boolean field-label-above\"><div class=\"field-label\">Avez-vous des besoins de financement pour votre startup?:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Oui, nous recherchons des financements </div></div></div><div class=\"field-collection-container clearfix\"><div class=\"field field-name-field-personne-a-contacter-pour- field-type-field-collection field-label-above\"><div class=\"field-label\">Coordonnées de la personne à contacter pour la recherche de financement:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\"><div class=\"field-collection-view clearfix view-mode-full field-collection-view-final\"><div >\n  <div class=\"content\">\n    <div class=\"field field-name-field-invest-nom-et-prenom field-type-text field-label-above\"><div class=\"field-label\">Nom et prénom:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Katell SALAUN</div></div></div><div class=\"field field-name-field-email field-type-text field-label-above\"><div class=\"field-label\">Email:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">[email protected]</div></div></div><div class=\"field field-name-field-fonction field-type-text field-label-above\"><div class=\"field-label\">Fonction:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">Présidente</div></div></div>  </div>\n</div>\n</div></div></div></div></div><div class=\"field field-name-field-contact-telephonique field-type-text field-label-above\"><div class=\"field-label\">Votre numéro de téléphone:&nbsp;</div><div class=\"field-items\"><div class=\"field-item even\">0631937916</div></div></div>  </div>\n\n  <ul class=\"links inline\"><li class=\"comment_forbidden first last\"><span><a href=\"/se-connecter?destination=node/26124%23comment-form\">Connectez-vous</a> ou <a href=\"/creer-un-compte?destination=node/26124%23comment-form\">inscrivez-vous</a> pour publier un commentaire</span></li>\n</ul>\n  \n</div>\n",
					"status": 1,
					"title": "KARE EVENTS",
					"url": "https://lespepitestech.com/startup-de-la-french-tech/kare-events",
					"objectID": "26124",
					"_highlightResult": {
						"author": {
							"value": "KARE EVENTS",
							"matchLevel": "none",
							"matchedWords": []
						},
						"field_le_slogan": {
							"value": "KARE EVENTS propose des teams building sur-mesure, adaptés à vos besoins et objectifs qui limitent l’impact environnemental et encouragent la solidarité. Ile-de-France et la région lyonnaise. ",
							"matchLevel": "none",
							"matchedWords": []
						},
						"title": {
							"value": "KARE EVENTS",
							"matchLevel": "none",
							"matchedWords": []
						}
					}
				},
				
				
			],
			"nbHits": 10604,
			"page": 0,
			"nbPages": 358,
			"hitsPerPage": 28,
			"facets": {
				"field_categorie_de_societe": {
					"Entreprise Startup": 8084,
					"Entreprise PME - PMI": 553,
					"Prestataires": 293,
					"Media": 113,
					"ETI/Grands Groupes": 39,
					"Incubateur / Accélérateur": 34,
					"Association": 33,
					"Enseignement - Recherche": 19,
					"Fond d'investissement": 9,
					"Institutionnel": 4,
					"Cluster - Pole": 3
				},
				"field_frenchtech_hub_pepite": {
					"French Tech Grand Paris": 4063,
					"French Tech One Lyon Saint Etienne": 544,
					"French Tech Bordeaux": 356,
					"French Tech Aix-Marseille Région Sud": 351,
					"French Tech Toulouse": 344,
					"French Tech Lille": 296,
					"French Tech Nantes": 250,
					"French Tech in the Alps": 230,
					"French Tech New-York": 223,
					"French Tech Montpellier": 217,
					"French Tech Londres": 214,
					"French Tech Paris Saclay": 197,
					"French Tech Rennes": 173,
					"French Tech Côte d'Azur": 171,
					"French Tech Hong-Kong": 124,
					"French Tech Loire Valley": 114,
					"French Tech East": 112,
					"French Tech Berlin": 100,
					"French Tech Barcelone": 91,
					"French Tech Montréal": 89
				},
				"field_votre_secteur_d_activit_": {
					"Digital": 663,
					"Finance / FinTech": 648,
					"Applications": 630,
					"Services aux entreprises": 499,
					"Marketplace": 482,
					"Objets Connectés": 433,
					"E-commerce": 430,
					"Informatique / IT": 399,
					"Marketing Digital": 386,
					"Divertissement": 385,
					"Santé": 358,
					"Immobilier": 346,
					"Big Data": 340,
					"Recrutement / RH": 326,
					"Communication": 317,
					"Outils B2B": 300,
					"Medtech": 299,
					"High-Tech": 297,
					"Tourisme": 286,
					"Sport": 269
				}
			},
			"exhaustiveFacetsCount": true,
			"exhaustiveNbHits": true,
			"exhaustiveTypo": true,
			"exhaustive": {
				"facetsCount": true,
				"nbHits": true,
				"typo": true
			},
			"query": "",
			"params": "query=&maxValuesPerFacet=20&page=0&facets=%5B%22search_api_aggregation_2%22%2C%22field_frenchtech_hub_pepite%22%2C%22field_categorie_de_societe%22%2C%22field_votre_secteur_d_activit_%22%5D&tagFilters=",
			"index": "recherchepepites",
			"processingTimeMS": 4,
			"processingTimingsMS": {
				"afterFetch": {
					"format": {
						"total": 1
					},
					"total": 2
				},
				"getIdx": {
					"load": {
						"total": 1
					},
					"total": 1
				},
				"request": {
					"roundTrip": 23
				},
				"total": 4
			},
			"serverTimeMS": 4
		}
	]
}

J’ai du couper une partie pour que ça passe ici, mais tu vois le principe…

Il n’y a plus qu’à augmenter le nombre de résultats retournés ou boulcer sur les pages…
Ensuite soit tu exploites directement le json ou tu le converti en csv avec un outil en ligne…

1 « J'aime »

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.