Parser pour cvthèque

doremi · Juin 25, 2018, 6:29

Bonjour,

Je suis en train de scraper les CV Pole Emploi.
J’ai réussi à récupéré dans un fichier Google Sheet (cvthèque) les noms des candidats et les liens vers les CV (qui sont soit en pdf, soit en doc).
Ma question : savez vous comment écrire un script qui à partir de cette liste d’url pourrait :
1- créer un répertoire sous Google Drive avec le nom du candidat
2- télécharger le fichier CV sous ce répertoire
3- parser les téléphones et surtout les emails du fichier CV et les mettre dans le google sheet cvthèque

Merci pour votre aide

ksahin · Juin 25, 2018, 8:30

C’est difficile de te répondre sans connaître ton niveau en programmation ?
Dans l’absolue, ce n’est pas très compliqué, disons que tu ai les bases en Python (par exemple, tu peux faire ça avec n’importe quel langage):

Utiliser l’API google sheets : Guida rapida di Python | Google Sheets | Google for Developers
—> Si tu ne veux pas te « prendre la tête » a configurer des clefs API, etc, le plus simple est d’exporter ton google sheets en csv, et de travailler a partir du CSV, et a la fin tu importera le CSV dans Google sheets.
Idem pour google drive: Python quickstart | Google Drive | Google for Developers
Tu itère sur ton fichier csv / google sheet, et télécharge chaque CV avec requests ou n’importe quel client http.
Tu créé ton répertoire via l’api google drive et tu met le fichier téléchargé dedans
Tu utilise une des différente librairie pour parser les PDF/DOC, et tu utilise une expression régulière pour extraire les emails / numéro de téléphone et puis tu met à jour ton google sheet / csv

En espérant t’avoir aidé !

doremi · Juin 26, 2018, 1:02

Merci pour ta réponse,

mon niveau en dev n’est pas formidable.
Du coup je me suis orienté vers Apps Script.

J’ai fait un script qui, à partir de mon Google Sheet, itère sur les lignes de mon tableau qui contiennent les url des documents à télécharger et téléchargent ses documents sous mon GoogleDrive.

Le hic est que le site internet demande un login et le script que j’ai fait ne doit pas marcher :
var url = « Connexion à votre compte Agefiph »;
var user = « monusername »;
var password = « monpassword »;
var headers =
{
« Accept »: « application/xml »,
« Content-Type »: « application/xml »,
« Authorization »: « Basic « + Utilities.base64Encode(user+ »: »+password)
};

    //defining method to download file
          var options = 
          {
                "method" : "get",
                "headers" : headers 
          };

var response = UrlFetchApp.fetch(url,options).getBlob();

Le problème ne vient pas de mes identifiants qui fonctionnent quand je me connecte directement sur le site, ni du lien pour accéder au CV (car cela fonctionne en direct).

Merci par avance

ksahin · Juin 26, 2018, 2:00

Je ne connais pas du tout Apps Script.

Cependant, ta requête m’a l’air bizarre.

Tu fait une basic auth (la ligne « “Authorization”: “Basic “+ Utilities.base64Encode(user+”:”+password) » ) alors que je suppose que le site, comme 99% des sites fonctionne soit avec une authentification par Cookie, ou avec un token jwt sur une API rest.

Tu as pompé ça quelque part ou bien tu as inspecté la requête de ton navigateur ?

Quand bien même tu arrives a télécharger les pdf, est-ce que tu pourra parser les pdf/doc avec App script ?