Numériser
En quoi consiste
la numérisation?
Dans nos métiers, la numérisation est l'action de donner un format numérique à un
support (suite de 0 et de 1).
Le support peut être
un document papier (facture, formulaire, registre, livre etc.) mais aussi un support microforme
(microfilm, micro fiche) voire tout autre (plans calques, vidéo, 35 mm, photo etc.). La
numérisation n'est souvent qu'une étape, certes préalable, à un processus de dématérialisation
qui implique souvent indexation (comment retrouver l'image ainsi constituée) voire extraction
(ce n'est plus l'image qui importe mais l'information qu'elle contient) puis finalement
rematérialisation des données pour archivage.
L'outil à utiliser permettant
de numériser (le scanner) dépend du support initial (un registre relié est assez
différent d'un plan calque !) de sa fragilité et de la quantité.
Dans les cas extrêmes il est recommandé d'utiliser des machines spéciales telles que BSD*
qui autorise des vitesses de numérisation SANS CONTACT approchant les 4000 pages A4 par
heure ou encore BQR* qui permet des numérisations couleur au format A1 à des
vitesses avoisinant les 400 pages par heure, ces systèmes exclusifs ont été
conçus par API SA.
Pourquoi numériser
peut s'avérer si compliqué ?
Parce que, souvent, numériser et reconnaître des caractères
n'est pas sufisant.
En effet, on passe ensuite à la reconnaissance "sémantique" des
mots : il s'agit alors d'associer chaque chaîne de caractères (c'est-à-dire
une image graphique) à un mot, selon un processus de décision qui tient compte
du contexte des mots voisins et se réfère à un dictionnaire de formes.
Lorsque certaines chaînes sont "douteuses" (plusieurs " candidats lexicaux
" possibles, aucune référence ...), il s'agit d'interpréter le
mot et de l'analyser suivant son sens ou son contexte : " M. " " Mr "
" Monsieur ", et de le traduire alors tel que vous le souhaitez.
Mais si la difficulté s'accroît, on est alors confronté à un
mot, non plus par son sens, mais par sa nature, et donc par sa destination. Si " Monsieur
" est une civilité qui doit renseigner un champ dans une base de données,
par exemple.
Un autre exemple rapide : une des spécialités de API est de numériser
et traiter les retours de courriers dits " NPAI " (N'habite Pas à l'Adresse
Indiquée). Nous sommes alors en présence d'enveloppes, barrées d'un
magnifique " NPAI " manuscrit et à partir desquelles il va falloir
reconstituer
une base de données
des adresses à corriger ou à éliminer.
Vous comprenez bien que le simple traitement OCR ne vous donnera jamais satisfaction. Il faudra
donc être capable de :
1° Numériser
2° Nettoyer l'image
3° OCR
4° Mettre au format standard (Mr = Monsieur)
5° les baliser (Monsieur = Civilité)
* BSD : Business System Document
* BQR :
|