Numérisation de livres non destructrice

Tous vos montages et bricolages liés aux observations naturalistes.
Règles du forum
Tous vos montages et bricolages liés aux observations naturalistes.

Numérisation de livres non destructrice

Messagede 6le20 » 07 Déc 2017 14:38

Bonjour à tous !

Qui n’a pas abimé la reliure d’un livre en voulant le photocopier, ou le scanner ?

Les ouvrages anciens fragiles, les livres épais à marges étroites…, quelle galère !

Pourtant aujourd’hui, surtout sur ce forum où nous sommes nombreux à disposer d’APN, il est beaucoup plus simple de numériser un ouvrage qui pourra ensuite être facilement partagé.

Voici donc un petit tuto sur ma méthodologie personnelle qui me permet de transformer un livre papier de 360 pages en pdf, en quelques heures de travail effectif : 1 heure de photographie, 1 heure de post-traitement des images, 1 heure de contrôle des étapes. Je ne compte que mon travail, pas celui de la machine qui, elle, travaille plus longtemps que moi !

Ce temps de travail est allongé d’une façon indéfinie pour peu que l’on commette des erreurs. Aussi, il vaut mieux perdre quelques secondes à la prise de vue, que perdre des heures à retrouver et corriger d’éventuels manques !


La numérisation au lutrin

Il faut un APN, un pied photo, une planche, des cales, une bonne lumière.
- A : Planchette calée sur des livres et fixée à la table par un bout de scotch
- B : Torchon propre pour protéger le livre
- C : Pied photo (le mien est en chêne !)
- D : Lampe…

01.jpg
Exif et Meta MicroCartouche 01.jpg (176 Kio) Vu 224 fois


Réglez l’APN sur la définition maximale, car c’est le critère qui défini la qualité de la reconnaissance optique de caractères (OCR) : mieux ils sont définis, moins il peut y avoir d’erreurs !

Une fois l’installation ajustée, il ne reste plus qu’à photographier les pages paires en partant du début, les sauvegarder dans un répertoire PAIRES, puis retourner le livre pour faire les impaires en partant aussi du début, puis sauvegarder.

En pratique, avec ce système improvisé ci-dessus, il faut 3 mains : deux qui appuient sur les pages pour les aplatir par les côtés (j’avais une vitre anti reflet, pour poser sur la page, mais je ne l’ai plus !) et une main extérieure qui déclenche l’appareil (on peut jouer aussi avec le retardateur). Celui qui aplatit la page doit veiller à toujours mettre les doigts au même endroit…, pour pouvoir effacer les bouts de doigts qui apparaissent sur les images lors du traitement par lot sous Ph’tochop (voit plus loin).

Celui qui manipule les pages du livre doit impérativement se laver les mains avant ! Tourner les pages est fastidieux et la concentration a tendance à diminuer, car tout en les tournant, il faut vérifier la pagination. Ne pas hésiter à faire des pauses… et se relaver les mains une fois la pause terminée !

Le livre que vous voyez ici, de près de 400 pages, m’a pris moins d’une heure pour cette étape de numérisation photographique.


Couvertures

Les couvertures font l’objet d’un travail à part et en couleur. Que nous les numérisions avant ou après le corps de l’ouvrage, il faut les renommer pour qu’elles trouvent leurs places naturelles devant, ou à la suite des fichiers paires ou impaires.


Sauvegarde

Vous avez donc photographié toutes vos pages et vous vous retrouvez avec un répertoire LIVRE contenant deux répertoires PAIRES et IMPAIRES. Conservez cet original quelque part, et copiez le dans un endroit ou vous le renommerez, par exemple; LIVRE-TRAVAIL.


Contrôle

Avant de démonter l’installation, nous devons maintenant vérifier que nous avons bien toutes les pages et que deux pages collées ne nous ont pas échappées…
Il faut donc les assembler en les renommant.

Ouvrez le premier répertoire sur lequel vous allez travailler, PAGES PAIRES dans mon exemple, et visualisez vos premières images jusqu’à ce que vous en trouviez une avec un numéro de page. Supprimez ou ajoutez des pages blanches, pour que la page soit positionnée dans la file à la place de sa pagination : 2, 4 ,6, 8, etc… Beaucoup de livres possèdent des pages blanches superfétatoires. Il ne faut pas hésiter à les éliminer, car le but est d’obtenir au final un pdf dans lequel nous pourrons nous déplacer en utilisant les numéros de pages donnés par l’index.

Pour renommer j’utilise AntRenamer (libre et gratuit) dans sa version portable.

- Quand vous ouvrez le logiciel cliquez sur Dossier, choisissez votre répertoire PAGES PAIRES
- Cliquez ensuite sur Opérations
- Cliquez sur Enumération
- Remplissez le tableau comme dans l’exemple (pour les pages impaires il faut mette 3 dans la première case).

02.jpg
Exif et Meta MicroCartouche 02.jpg (79.71 Kio) Vu 224 fois


- Une fois cette fenêtre paramétrée, vous n’avez plus qu’à cliquer sur Démarrer (tout en haut, le bouton vert à droite de Opération Journal).

Vous rassemblez ensuite tous vos fichiers dans le même répertoire et vous allez visualiser les dernières pages : si la page xx9 précède bien la page xx0, c’est gagné !
Si elle la suit, il faut se balader dans les images jusqu’à trouver l’anomalie et numériser la page manquante… ou effacer le doublon (ça arrive !).

Si par malchance, les pages collées le sont restées lors des deux étapes de numérisation, vous ne vous en rendrez compte que lors de la lecture de l’ouvrage… Rassurez-vous, ce cas de figure est rare si celui qui tourne les pages a bien contrôlé leur numéro au fur et à mesure...


Traitement par lot sous ph’toshop

Nous allons travailler sur le répertoire des PAGES-PAIRES.

- Vous commencez par copier 4 ou 5 images prises au hasard au fil du bouquin que vous mettez dans un répertoire TEST.
- Vous en ouvrez une dans Ph’toshop
- Vous ouvrez la fenêtre des scripts (Barre des menu : Fenêtre --> scripts)
- Sous la fenêtre Script vous avez des boutons dont la fonction apparait lorsque vous laissez la souris dessus.
- Cliquez sur créez un script

03.jpg
Exif et Meta MicroCartouche 03.jpg (41.71 Kio) Vu 225 fois


- Nommez ce Script de façon claire, genre AUTEUR-PAIRES
- Le bouton rouge signale que le script est prêt à enregistrer. Arrêtez-le ! (bouton carré à gauche du point rouge)
- Sur l’image que vous avez ouverte réalisez une des opérations souhaitées, un réglage de contraste par exemple. Mettez au point cette opération. Puis par Ctrl Z revenez en arrière, cliquez sur l’enregistrement du script (bouton rond) et recommencez l’opération en l’enregistrant.
- Enregistrez ainsi toutes les opérations que vous souhaitez faire sur l’ensemble des images (Crop, contraste, lumière, suppression des bouts de doigts, etc…, enregistrez votre fichier et fermez le.
- Arrêtez l’enregistrement du script avec le bouton carré.


Une fois cette étape achevée, il faut tester ce script en l’appliquant à toutes les images de votre répertoire TEST
- Ouvrez le traitement par lot (Barre des menus : Fichier --> Automatisation --> Traitement par lot)
- Paramétrez comme indiqué :

04.jpg
Exif et Meta MicroCartouche 04.jpg (118.63 Kio) Vu 225 fois


- Envoyez en cliquant sur OK

La machine se met à traiter toutes les images du répertoire TEST en lui appliquant les réglages définis dans le script.

Vérifiez vos image et corriger vos réglage dans le script éventuellement.

Une fois le script bien au point, traitez les images du répertoire PAGES-PAIRES.

Faites ensuite la même chose avec vos PAGES-IMPAIRES


OCR

Une fois toutes les images traitées, regroupez les dans un même répertoire, tout en en gardant une copie (IMPORTANT : il arrive que deux erreurs s’annulent, cette copie originale vous permettra de corriger ces erreurs en renommant en lot, sans qu’il soit nécessaire de renommer à la main).

Contrôlez les images de vos pages, par exemple, sous forme de grandes vignettes. Modifiez celles qui présentent des anomalies (vous avez toujours les originaux quelque part). Travaillez les couvertures à part, renommez les pour qu’elles trouvent leur place et ajoutez les au dossier du livre complet.

Logiciel d'OCR gratuit en licence libre : FreeOCR (attention risque de programmes parasites à décocher à l'installation !)

Quand tout est parfait, vous faites glisser toutes les images dans votre logiciel d’OCR (où vous avez indiqué la langue d’origine) et vous enregistrez le résultat en PDF, en paramétrant « image sur texte ». Ce paramétrage vous permettra de voir l’image originale de la page à l’écran, tout en gardant la possibilité de faire des copier-coller et des recherches dans le texte à partir d'une chaine de caractère (Alt F).


Astuce

Pour ma part, pour un même ouvrage, j’ai tendance à créer un fichier INDEX, un fichier TEXTE, voire un fichier PLANCHES. Cela me permet de consulter en même temps le texte et les images, sans faire des allers retours dans le PDF, l’index me permettant d’aller directement aux pages qui m’intéressent.


Bien sûr, cette technique est parfaite pour réaliser des copies numériques privées de vos ouvrages récents, un moyen de les emporter avec soi sans trimballer des kilos de livres et, évidement, pour des ouvrages anciens introuvables...

EDIT : modification du lien FreeOCR.
Amicalement

Sylvain
Bestiolomane-plantophile



Bino Olympus SZIII + CAM 5 mg et Micro Paralux L3000 trino + Panasonic G5
Avatar de l’utilisateur
6le20
membre
membre
 
Messages: 2071
Inscription: 04 Aoû 2015 15:34
Localisation: Corbières
Prénom: Sylvain

Re: Numérisation de livres non destructrice

Messagede Fredlab » 11 Déc 2017 15:21

Merci pour ce post :D
La planète peut pourvoir aux besoins de tous, mais non pas satisfaire la cupidité de certains (Gandhi)
Avatar de l’utilisateur
Fredlab
membre
membre
 
Messages: 9284
Inscription: 27 Juin 2010 13:42
Localisation: Auxonne (21)
Prénom: Frederic


Retourner vers Bricolages divers

Qui est en ligne

Utilisateurs parcourant ce forum: -Stéphane- et 2 invités