Réponses de la foire aux questions API SA
1/ Quelles sont les contraintes de stockage générées par l'archivage traditionnel ?
Outre les normes (températures et hydrométries contrôlées et régulées) c'est en priorité la
place occupée :
- - Le CHU de Limoges, ce sont 10 kilomètres de dossiers médicaux, une augmentation de surface régulière de 5%, et chaque année, 600 mètres linéaires supplémentaires pour assurer la conservation des dossiers…
- - L'institut National de l'Audiovisuel (INA). Si l'on considère ses seuls dossiers émanants du Bureau des Droits, ce sont entre 50 et 60 tonnes (!) de documents.
Sans oublier la détérioration générée par la consultation de ces papiers, parfois uniques, manipulés pour certains des milliers de fois.
2/
En quoi consiste la numérisation?
Dans nos métiers, la numérisation est l'action
de donner un format numérique à un
support (suite de 0 et de 1).
Le support peut être un document papier (facture, formulaire, registre, livre etc.) mais aussi un support microforme (microfilm, micro fiche) voire tout autre (plans calques, vidéo, 35 mm, photo etc.). La numérisation n'est souvent qu'une étape, certes préalable, à un
processus de dématérialisation qui implique souvent indexation
(comment retrouver l'image ainsi constituée) voire extraction (ce n'est plus l'image qui importe mais l'information qu'elle contient) puis finalement rematérialisation des données pour archivage.L'outil
à utiliser permettant de numériser (le scanner)
dépend du support initial (un registre relié est assez
différent d'un plan calque !) de sa fragilité et de
la quantité.
Dans les cas extrêmes il est recommandé d'utiliser des
machines spéciales telle le BSD, système exclusif conçu
par API SA qui autorise des vitesses de numérisation
SANS CONTACT approchant les 4000 pages A4 à l'heure
! en savoir plus
3/ Archivage ne signifie pas seulement
sauvegarde des données numériques ?
Nous avons vu que la numérisation était l'action de donner un format numérique à un support.
Dans
le cas des archives, notre métier consistera
en la retranscription des données écrites,
considérées importantes pour l'avenir
patrimonial, en données numériques et
ce, de la manière la plus automatisée possible. (Voir
article presse sur la numérisation par BSD)
La qualité des traitements qui permettront l'archivage
des données numériques (OCR, traitement
textuel, indexation) est primordiale car
elle permettra l'archivage sous forme électronique
des documents initiaux quelquefois fragiles, ou confidentiels.
L'archivage sous-entend sécurité et pérennité
et intègre la notion de restitution ciblée
des informations stockées en vue d'une ré-exploitation
des données qui n'étaient plus d'actualité.
Il
ne faudra pas confondre archivage sécurisé et sauvegarde des
données numériques!
La sauvegarde numérique contribuera simplement
à la continuité d'exploitation des travaux
en cours et permettra de palier à des incidents
de fonctionnement momentanés. en savoir plus
4/
En quoi consiste la reconnaissance automatique de
textes (OCR ou océrisation)?
Il existe deux types de textes l'imprimé
ou le manuscrit. La reconnaissance de l'un et de l'autre
ne met pas en œuvre les mêmes technologies.
• L'imprimé
Beaucoup d'entre nous savent utiliser un OCR. C'est
un outil, plus ou moins performant qui reconnaîtra
des lettres, des signes ou des espaces, et ce, par
la présence ou l'absence sur une grille de
ces points noirs que l'on appelle pixels. L'OCR les
transformera alors en caractères informatiques.
• Le manuscrit
La simple analyse d'un point sur une abscisse et une
ordonnée ne suffit plus ! Il faut alors prendre
en considération une troisième dimension
qui est celle du temps, ou du déplacement si
vous préférez. On fait alors appel aux
réseaux de neurones.
Les opérations d'océrisation devront
être menées d'une façon minutieuse
pour atteindre la qualité souhaitée. en savoir plus
5/
Les documents à numériser doivent-ils
obéir à certaines normes de présentation,
telles les marges, interlignes, types de polices ...?
Le logiciel de reconnaissance est en mesure de reconstituer
le texte dactylographié, quelles que soient les
variations de présentation du document source.
En ce qui concerne les signes spéciaux, mots
inconnus et autres, tout logiciel peut accroître
sa compétence de traitement par apprentissages
successifs : il suffit de lui "apprendre"
à identifier un signe inconnu et de le stocker
dans sa bibliothèque pour qu'il le reconnaisse
automatiquement lors des passages suivants.
En revanche, la reconnaissance d'écriture manuscrite
porte en elle un peu plus de contraintes : pré-casé,
écriture non cursive ou recherche dans un ensemble
fermé. Les montants des chèques sont par
exemple un ensemble fermé.
6/
Pourquoi numériser peut s'avérer si compliqué
?
• Parce que, dans bien des cas, numériser
et reconnaître des caractères n'est pas
suffisant.
En effet, on passe ensuite à la reconnaissance
"sémantique" des mots : il s'agit alors
d'associer chaque chaîne de caractères
(c'est-à-dire une image graphique) à un
mot, selon un processus de décision qui tient
compte du contexte des mots voisins et se réfère
à un dictionnaire de formes. Lorsque certaines
chaînes sont "douteuses" (plusieurs
" candidats lexicaux " possibles, aucune référence
...), il s'agit d'interpréter le mot et de l'analyser
suivant son sens ou son contexte : " M. "
" Mr " " Monsieur ", et de le traduire
alors tel que vous le souhaitez.
Mais si la difficulté s'accroît, on est
alors confronté à un mot, non plus par
son sens, mais par sa nature, et donc par sa destination.
Si " Monsieur " est une civilité qui
doit renseigner un champ dans une base de données,
par exemple.
• Un autre exemple rapide : une des spécialités
de API est de numériser et traiter les retours
de courriers dits " NPAI " (N'habite Pas à
l'Adresse Indiquée). Nous sommes alors en présence
d'enveloppes, barrées d'un magnifique "
NPAI " manuscrit et à partir
desquelles il va falloir reconstituer
Vous comprenez bien que le simple traitement OCR ne vous donnera jamais satisfaction. Il faudra donc être capable de :
1° Numériser
2° Nettoyer l'image
3° OCR
4° Mettre au format standard (Mr = Monsieur)
5° les baliser (Monsieur = Civilité)
7/
Est-ce que le document numérisé conservera
la mise en page de l'original ?
Il est possible d'obtenir la même présentation
en utilisant des procédés tels que le
format pdf, qui génère une image électronique
fidèle au document original : textes, illustrations,
etc….
Pour un document numérique dynamique, il est
possible de définir des règles de présentation
: on peut donc créer une mise en page sur mesure
et qui sera parfois de meilleure qualité que
le document original !
8/
Que se passe-t-il si le document à numériser
présente des particularités : reliure,
marge étroite, qualité médiocre,
etc… ?
Le scanner à plat est parfois inopérant.
Nous mettons alors en œuvre des " scanners-berceaux
" qui permettent une saisie optimum de l'image,
tout en préservant l'état des reliures.
Il existe également plusieurs alimenteurs de
documents en fonction de leur taille et de leurs caractéristiques.
Les méthodes que nous mettons en place permettent
aussi de régler les niveaux de contraste et de
visualisation, en adéquation avec le document.
Ils réduiront les sources de bruit dans l'image
et signaleront tout signe parasite résiduel après
filtrage (caractère brisé, etc…).
Ainsi, nous sommes allés jusqu'à concevoir
nos propres outils de numérisation (API-System®)
afin de numériser des documents hautement sensibles.
9/
Qu'est ce qu'un document " hautement sensible "
?
C'est un document qui est en général
fragile, unique et non reconstituable ; de plus, il
est souvent confidentiel. Fragile, car ce sont fréquemment
des pelures ou des documents anciens ; et non reconstituable
veut dire qu'une fois détruit, il sera impossible
d'en reconstituer l'objet.
10/
Qu'est ce que l'indexation d'un document ?
L'indexation est une méthode qui permet de
retrouver automatiquement un terme (ou une combinaison
de termes) à partir de clefs prédéfinies.
Pour prendre une analogie, lorsque vous désirez
rechercher rapidement un mot dans un document Word,
vous procédez à l'opération "Rechercher"
sous le menu Edition et introduisez un terme de requête
dans une boîte de dialogue.
Dans
nos métiers l'indexation est un principe similaire
mais plus puissant qui permet à l'utilisateur
de retrouver instantanément n'importe quelle
information dans un immense corpus d'archives.
Par l'utilisation de langages de structuration des données
tels que le XML, il est possible de concevoir des systèmes
de recherche multicritères (ex : rechercher deux
mots voisins dans la même page). Il est également
possible de créer des sommaires automatiques
à partir des titres et sous-titres, grâce
à des connexions définies par l'utilisateur.
Si l'on est conduit à insérer de nouvelles
informations dans un document ou à remettre à
jour un titre, la remise à jour du sommaire et
sa re-pagination se feront alors automatiquement
Pour indexer, il aura fallu procéder au traitement de l'information textuelle.
11/
Quels types de documents une société peut-elle
faire circuler par Intranet ?
Une telle architecture permet de faire partager
tout document, qu'il s'agisse de documents de référence
anciens comme de nouvelles plus fraîches, que
ce soient des documents provenant de l'extérieur
ou des informations internes : bulletin intérieur,
circulaires, double des textes affichés, notes
de service, notes de procédure, courriers, rapports
d'études, bilans, compte-rendus de réunion,
rapports annuels, rapports d'intervention, formulaires
à transmettre, bons de commande, de livraison,
de facturation, ...
C'est donc la mise à disposition de toutes les
informations qui jusqu'alors restaient trop souvent
empilées dans les placards.
Sans oublier, grâce au multimédia, la possibilité
de distribuer des documents graphiques, sonores ou vidéo
et de créer une messagerie interne, un forum
de discussion, etc…
12/
Un tel partage de l'information ne remet-il pas en question
les structures hiérarchiques au sein de l'entreprise
?
Un accès partagé à l'information
peut rendre l'organigramme d'une société
plus flexible, raccourcir les circuits de décision,
et ce, sans mettre à mal son organisation. Lorsque
l'information circule de manière transversale,
chacun acquiert une vision plus globale, et contextualise
mieux sa contribution personnelle. Ce qui se traduit
généralement par un degré de satisfaction
supérieur et un sentiment de responsabilité
plus élevé.
13/
Cependant n'est-il pas dangereux de laisser l'information
à portée de toutes les mains ?
Certes, mais l'information devient progressivement
la première richesse de l'entreprise.
La question est donc de mettre en place des sécurités
qui soient à la mesure de la nature de l'information
traitée.
14/
L'information et la connaissance sont-elles vraiment
les premières richesses de l'entreprise ?
° Oui, comme fond de commerce, quand elle est
la base sur laquelle se construit la “ relation
client ”.
° Oui, comme partie intégrante de la production,
quand l'ISO et les certifications aidant, les procédures
prennent davantage de place.
° Oui, comme matière première quand
c'est le document et l'information qu'il porte qui font
l'objet du traitement par l'entreprise.
° Oui, comme mémoire de l'entreprise et de
ses savoir-faire quand il est question de donner accès
aux archives sans payer le prix d'un stockage inutile.
15/
L'information électronique c'est bien joli, mais
comment puis-je accéder à des documents
s'il y a une panne de réseau dans ma société
?
Il y a fort peu de chances pour que seul le traitement
de l'information soit concerné dans une panne
de réseau. Exprimé différemment,
nous serions tenté de dire que si une panne de
réseau intervient dans votre entreprise, l'accès
à l'information électronique deviendra
l'un de vos nombreux problèmes !
16/
Gérer l'écrit de demain avec les outils
d'hier ?
Les distances s'annulent : la différence
n'existe plus entre deux bureaux, deux étages
ou deux continents .
Le temps se rétrécit : l'écrit
doit circuler à la vitesse de la lumière
et l'information doit être traitée non
plus séquentiellement mais en parallèle.
Dans les faits, cela revient à dire que si l'information
garde toute sa valeur, c'est en revanche le support
qui change : la tablette a cédé la place
au papyrus qui s'est effacé pour le parchemin,
écarté au profit du papier…..qui
côtoie désormais la fibre optique des câbles
sous-marins, les liaisons satellites et la paire torsadée
de nos LAN !
Il convient donc de plus en plus souvent de dématérialiser
le support pour le rendre “ virtuel ” ou “
électronique ” et l'enrichir d'une nouvelle
valeur ajoutée.

