Scrapping annuaire papier


#1

Hello,
Je recherche une solution pour créer une base de données (xls) a partir d’un annuaire papier dans lequel je veux extraire les adresses emails et les adresses postales.
L’annuaire fait environ 400 pages.
J’avais pensé a faire faire ça par une société offshore mais je ne trouve pas de contact.
Des idées ?
Merci pour vos éventuelles réponses.


#2

Salut !

Quel est ton budget envisagé?
Tu peux tenter sur fiverr peut-être. Il faut bien trier les profils mais tu peux tomber sur des petites pépites. J’ai plusieurs fois fait faire de la retranscription de documents scannés sur lesquels l’OCR ne fonctionnait pas. Mais bon c’était à chaque fois une 20-30aine de page. Pour 5$. Pour tes 400 pages ca sera certainement plus cher mais si tu as prévu un budget pour je pense que c’est faisable


#3

Tu peux t’aider des logiciels de reconnaissance de caractères, plus d’infos : http://fr.wikipedia.org/wiki/Reconnaissance_optique_de_caractères


#4

Tout dépend de la qualité du scan. Et puis scanner 400 pages… Je suppose qu’il veut économiser son temps et qu’il préfèrerait fournir l’annuaire papier à quelqu’un qui s’en chargerait ? (soit en scannant puis OCR soit en se tapant tout à la main)


#5

Hello

Odesk.com est ton ami !


#6

Bonjour

J’ai déjà fait ce genre de manip. Avec une Baguette de Scan. (Ultra rapide + qualité 600dpi) et logiciel de reconnaissance de caractère (comme dit plus haut).

https://www.google.fr/search?q=scanner+baguette&rlz=1C1PRFC_enFR585FR585&espv=2&biw=1324&bih=592&source=lnms&tbm=isch&sa=X&ei=UMLhVObAFtfmaqvYgKgC&ved=0CAgQ_AUoAQ

Un bon logiciel d’OCR te permettra de faire des macros si jamais la reconnaissance d’images déconne par moment, ou que certaines iconos sont mal comprises par le programme. Je n’ai plus le nom du logiciel que j’avais utilisé à l’époque, désolé.


#7

Merci à tous pour vos réponses ! (Et désolé de ne pas êtrer revenu vers vous plus tôt - honte à moi).
Au final, je suis passé par un scan haute def (en basse def le logiciel OCR n’était pas assez précis), puis transformation du scan en doc éditable et extraction des emails grâce à Email Extractor. C’est un peu fastidieux, mais ça marche bien.


#8

Merci pour le retour @mazoyerc


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr