En quoi consiste la numérisation ?
Dans nos métiers, la numérisation est
l'action de donner un format numérique à un support analogique (document écrit, plan, diapositive).
Le support peut être un document papier : facture, formulaire, registre, livre etc. mais aussi un support microforme microfilm, micro fiche voire tout autre plans, vidéo, 35 mm, photo etc.
La numérisation n'est souvent qu'une étape, certes préalable, à un processus de dématérialisation qui implique souvent indexation
(comment retrouver l'image ainsi constituée) voire extraction (ce n'est plus l'image qui importe mais l'information qu'elle contient) puis finalement rematérialisation des données pour archivage.
L'outil à utiliser pour numériser (le scanner) dépend du support initial (un registre relié est assez différent d'un plan calque !) de sa fragilité et de la quantité.
Dans les cas extrêmes il est recommandé d'utiliser des machines spéciales.
Pourquoi numériser peut-il s'avérer si compliqué ?
• Parce que numériser et reconnaître des caractères n'est pas toujours suffisant :
la reconnaissance "sémantique" des mots.
Il s'agit alors d'associer chaque chaîne de caractères (c'est-à-dire une image graphique) à un mot, selon un processus de décision qui tient compte du contexte des mots voisins et se réfère à un dictionnaire de formes. Lorsque certaines chaînes sont "douteuses" (plusieurs "candidats lexicaux" possibles, aucune référence ...), il s'agit d'interpréter le mot et de l'analyser suivant son sens ou son contexte : "M." "Mr" "Monsieur", et de le traduire alors tel que vous le souhaitez.
Mais la difficulté s'accroît si on est alors confronté à un mot, non plus par son sens, mais par sa nature, et donc par sa destination.
Par exemple si "Monsieur" était une « civilité » qui doive renseigner un champ dans une base de données et non pas le nom commun d’un « monsieur ordinaire ».
• Un autre exemple rapide : une de nos expertises est de
numériser et traiter les retours de courriers dits "NPAI"
(N'habite Pas à l'Adresse Indiquée). Nous sommes alors en présence d'enveloppes, barrées d'un magnifique " NPAI " manuscrit et à partir desquelles il va falloir reconstituer une base de données des adresses à corriger ou à éliminer.Vous comprenez bien que le simple traitement OCR ne vous donnera jamais satisfaction. Il faudra donc être capable de :
- 1° Numériser
- 2° Nettoyer l'image
- 3° OCR
- 4° Mettre au format standard (Mr = Monsieur)
- 5° les baliser (Monsieur = Civilité)

