Docutique et  Ingénierie Numériser Indexer OCR Archiver

Numériser

En quoi consiste la numérisation?
Dans nos métiers, la numérisation est l'action de donner un format numérique à un support (suite de 0 et de 1).

Le support peut être un document papier (facture, formulaire, registre, livre etc.) mais aussi un support microforme (microfilm, micro fiche) voire tout autre (plans calques, vidéo, 35 mm, photo etc.). La numérisation n'est souvent qu'une étape, certes préalable, à un processus de dématérialisation qui implique souvent indexation (comment retrouver l'image ainsi constituée) voire extraction (ce n'est plus l'image qui importe mais l'information qu'elle contient) puis finalement rematérialisation des données pour archivage.

L'outil à utiliser permettant de numériser (le scanner) dépend du support initial (un registre relié est assez différent d'un plan calque !) de sa fragilité et de la quantité.
Dans les cas extrêmes il est recommandé d'utiliser des machines spéciales telles que BSD* qui autorise des vitesses de numérisation SANS CONTACT approchant les 4000 pages A4 par heure ou encore BQR* qui permet des numérisations couleur au format A1 à des vitesses avoisinant les 400 pages par heure, ces systèmes exclusifs ont été conçus par API SA.

Pourquoi numériser peut s'avérer si compliqué ?
• Parce que, souvent, numériser et reconnaître des caractères n'est pas sufisant.
En effet, on passe ensuite à la reconnaissance "sémantique" des mots : il s'agit alors d'associer chaque chaîne de caractères (c'est-à-dire une image graphique) à un mot, selon un processus de décision qui tient compte du contexte des mots voisins et se réfère à un dictionnaire de formes. Lorsque certaines chaînes sont "douteuses" (plusieurs " candidats lexicaux " possibles, aucune référence ...), il s'agit d'interpréter le mot et de l'analyser suivant son sens ou son contexte : " M. " " Mr " " Monsieur ", et de le traduire alors tel que vous le souhaitez.
Mais si la difficulté s'accroît, on est alors confronté à un mot, non plus par son sens, mais par sa nature, et donc par sa destination. Si " Monsieur " est une civilité qui doit renseigner un champ dans une base de données, par exemple.
• Un autre exemple rapide : une des spécialités de API est de numériser et traiter les retours de courriers dits " NPAI " (N'habite Pas à l'Adresse Indiquée). Nous sommes alors en présence d'enveloppes, barrées d'un magnifique " NPAI " manuscrit et à partir desquelles il va falloir reconstituer

une base de données des adresses à corriger ou à éliminer.
Vous comprenez bien que le simple traitement OCR ne vous donnera jamais satisfaction. Il faudra donc être capable de :
1° Numériser
2° Nettoyer l'image
3° OCR
4° Mettre au format standard (Mr = Monsieur)
5° les baliser (Monsieur = Civilité)

* BSD : Business System Document
* BQR :
  Retour : Haut de page
SOCIETE API QUALITÉ MÉTIERS ACTUALITÉS INFOS LÉGALES
Questions et réponses sur la FAQ!

accueil

atelier mobile




prestation

actualités