Numérisez un livre en PDF interrogeable ou Word.docx avec caractères vérifiés et orthographe vérifiée
Numérisation d'un livre, d'un livret ou d'un journal en PDF image avec une couche de texte interprétée par OCR
Nous proposons deux méthodes principales pour numériser des livres ou des livrets :
- Numérisation automatique à alimentation feuille à feuille : Utilisée lorsque le livre/livret peut être découpé, ce qui permet une meilleure qualité, une plus grande efficacité et des économies de coûts. Dans ce cas, les couvertures et la jaquette sont toujours numérisées en premier (avant que le livre ne soit découpé) avec un scanner par le dessus (overhead).
- Numérisation par le dessus (overhead) : Convient aux livres entiers jusqu'au format A1(+) qui ne peuvent pas être découpés.
Le processus de numérisation :
- Résolution : Nous numérisons à 600 dpi pour permettre une OCR de haute qualité, puis nous sous-échantillonnons à 300 dpi afin de réduire la taille du fichier sans compromettre le résultat de l'OCR.
- OCR : Réalisée avec les meilleurs logiciels disponibles :
- Option 1 : OCR par lots sans correction des caractères incertains. (Nous corrigeons cependant toujours la page de titre.)
- Option 2 : OCR avec correction des caractères et des mots incertains pour une plus grande précision.
- Amélioration des images : Nous utilisons notre propre remplissage de bord dynamique pour des bords de page plus nets. Nous pouvons également redresser soit tout le rectangle de la page, soit le bloc de texte sur la page, ainsi que nettoyer les marges pour une qualité extra-élevée. Pour la numérisation en noir et blanc, le bloc de texte est centré et les petites taches noires sont filtrées. Les taches plus grandes sont retouchées manuellement. Pour la numérisation en couleur, nous pouvons retoucher les taches et les points aussi bien automatiquement dans les marges que manuellement ! Le centrage du texte peut être un peu plus difficile à réaliser proprement en couleur.
Livraison :
- Vous recevez un ou plusieurs PDF image interrogeables : à 300 dpi avec une perte de qualité minimale, plus 600 dpi si vous le souhaitez.
- Options :
- Noir et blanc : Tailles de fichier minimales, idéal pour les documents texte sans illustrations.
- Niveaux de gris : Tailles de fichier plus petites que la couleur, un bon compromis entre qualité et taille. Mais je recommande la couleur ou le noir et blanc !
- Couleur : Indispensable pour les pages comportant des illustrations, afin d'obtenir la meilleure reproduction.
- La possibilité de mélanger des pages en noir et blanc et en couleur selon le contenu.
Tarifs :
Contactez-nous pour plus d'informations ou pour discuter de vos besoins spécifiques ! Il est important d'indiquer le type de prix et de qualité que vous recherchez : 1) Bon marché et basique, ou 2) Une très haute qualité avec un texte redressé et un examen minutieux des pages avec retouche des taches et des points. 3) Si vous êtes prêt à attendre longtemps, par exemple six mois ou jusqu'à un an, j'accorde une remise substantielle sur les gros travaux.
Fichiers d'exemple :
Images uniquement, au format PDF, TIFF ou PNG pour l'impression de reproduction
Si, au lieu de cela, vous souhaitez simplement un PDF image du livre, ou des images TIFF, sans possibilité de modification, nous pouvons bien sûr le faire également ! Nous pouvons numériser en couleur, en niveaux de gris ou en noir et blanc jusqu'à 600 dpi de résolution optique. 600 dpi suffisent généralement pour l'impression de reproduction !
Dans la plupart des cas, nous pouvons également centrer le bloc de texte si vous souhaitez ce service supplémentaire !
Numérisation OCR d'un livre en Word.docx
Nous découpons normalement le livre - ou nous utilisons un scanner par le dessus (overhead) pour la numérisation de livres jusqu'au format A1(+) - et nous numérisons les pages du livre puis les convertissons par OCR en un texte brut, c'est-à-dire un texte modifiable, découpé par page, avec des caractères vérifiés manuellement et une orthographe vérifiée, mais sans mise en forme typographique.
Variante : Orthographe vérifiée par IA, ce qui est un peu moins cher et presque aussi bon !
Nous sommes performants sur les textes exigeants comportant des langues et des caractères étrangers. C'est l'une des raisons pour lesquelles les éditeurs tiennent à faire appel à nos services !
Avec notre service de numérisation de livres, nous avons par exemple assisté Brombergs Bokförlag, Bokförlaget Bakhåll, Bokförlaget Daidalos, Bookmark förlag, Fri Tanke Förlag, Bookhouse Publishing, Lindelöws bokförlag, Mondial Förlag, Åbergs stilus et forma et d'autres.
Nouvelle composition typographique du bloc de texte pour l'impression ou un livre électronique
Vous pouvez ensuite continuer à travailler le texte s'il s'agit d'un fichier Word que vous avez commandé ! Soit vous composez le bloc de texte vous-même, soit vous faites appel à un maquettiste de livres externe ! Nous pouvons vous recommander un maquettiste de livres avec lequel nous travaillons habituellement si vous le souhaitez ! Il peut composer un bloc de texte, créer une nouvelle couverture ou réaliser un livre électronique au format EPUB.
Texte brut OCR avec caractères vérifiés et orthographe vérifiée à partir d'un fichier PDF
À partir de certains fichiers PDF, nous pouvons extraire le contenu directement et le convertir en fichier Word. Lorsque cela n'est pas possible, les pages du fichier PDF sont interprétées comme des images à l'aide de la technologie OCR, comme ci-dessus.
Quelques points courants à prendre en compte avant la numérisation d'un livre
Exemple 1 : Calibrage traditionnel ou calibrage FADGI (meilleure reproduction des couleurs)
Exemple 2 : Image non traitée ou avec remplissage de bord dynamique
Exemple 3 : Remplissage de bord avec couleur moyenne dynamique ou remplissage de bord avec une palette de pixels dynamique
Exemple 4 : Image originale et retouchée avec une palette de pixels dynamique
Exemple 5 : Recadrer ou ne pas recadrer ?
Exemple 6 : Une page de livre et un bloc de texte tels qu'ils apparaissent réellement, ou avec un texte redressé ?
Exemples d'images numérisées par le dessus (overhead)
Vidéo du flux de travail - un exemple
Il s'agit d'un extrait de 13 pages d'un catalogue de musée. Une numérisation d'exemple. J'ai numérisé les couvertures en couleur à 600dpi avec un scanner par le dessus (overhead) Zeutschel. J'ai ensuite numérisé le bloc de texte en couleur à 600 dpi sur un scanner Inotec 6x1. J'ai post-traité les bords des images de page dans un programme de post-traitement distinct. Enfin, je les ai interprétées par OCR et enregistrées au format PDF.
Rognage des pages de livres