Réponses de la foire aux questions API SA


1/ Quelles sont les contraintes de stockage générées par l'archivage traditionnel ?
Outre les normes (températures et hydrométries contrôlées et régulées) c'est en priorité la

place occupée :

  • - Le CHU de Limoges, ce sont 10 kilomètres de dossiers médicaux, une augmentation de surface régulière de 5%, et chaque année, 600 mètres linéaires supplémentaires pour assurer la conservation des dossiers…
  • - L'institut National de l'Audiovisuel (INA). Si l'on considère ses seuls dossiers émanants du Bureau des Droits, ce sont entre 50 et 60 tonnes (!) de documents.
Et il faut compter avec les déplacements, et donc la perte de temps, que leur consultation implique.
Sans oublier la détérioration générée par la consultation de ces papiers, parfois uniques, manipulés pour certains des milliers de fois.

RETOUR AUX QUESTIONS

2/ En quoi consiste la numérisation?
Dans nos métiers, la numérisation est l'action de donner un format numérique à un
support (suite de 0 et de 1).

Le support peut être un document papier (facture, formulaire, registre, livre etc.) mais aussi un support microforme (microfilm, micro fiche) voire tout autre (plans calques, vidéo, 35 mm, photo etc.). La numérisation n'est souvent qu'une étape, certes préalable, à un

processus de dématérialisation qui implique souvent indexation

(comment retrouver l'image ainsi constituée) voire extraction (ce n'est plus l'image qui importe mais l'information qu'elle contient) puis finalement rematérialisation des données pour archivage.

L'outil à utiliser permettant de numériser (le scanner) dépend du support initial (un registre relié est assez différent d'un plan calque !) de sa fragilité et de la quantité.
Dans les cas extrêmes il est recommandé d'utiliser des machines spéciales telle le BSD, système exclusif conçu par API SA qui autorise des vitesses de numérisation SANS CONTACT approchant les 4000 pages A4 à l'heure ! en savoir plus

RETOUR AUX QUESTIONS

3/ Archivage ne signifie pas seulement

sauvegarde des données numériques ?


Nous avons vu que la numérisation était l'action de donner un format numérique à un support.

Dans le cas des archives, notre métier consistera en la retranscription des données écrites, considérées importantes pour l'avenir patrimonial, en données numériques et ce, de la manière la plus automatisée possible. (Voir article presse sur la numérisation par BSD)

La qualité des traitements qui permettront l'archivage des données numériques (OCR, traitement textuel, indexation) est primordiale car elle permettra l'archivage sous forme électronique des documents initiaux quelquefois fragiles, ou confidentiels.
L'archivage sous-entend sécurité et pérennité et intègre la notion de restitution ciblée des informations stockées en vue d'une ré-exploitation des données qui n'étaient plus d'actualité.

Il ne faudra pas confondre archivage sécurisé et sauvegarde des données numériques!
La sauvegarde numérique contribuera simplement à la continuité d'exploitation des travaux en cours et permettra de palier à des incidents de fonctionnement momentanés. en savoir plus

RETOUR AUX QUESTIONS

4/ En quoi consiste la reconnaissance automatique de textes (OCR ou océrisation)?
Il existe deux types de textes l'imprimé ou le manuscrit. La reconnaissance de l'un et de l'autre ne met pas en œuvre les mêmes technologies.
• L'imprimé
Beaucoup d'entre nous savent utiliser un OCR. C'est un outil, plus ou moins performant qui reconnaîtra des lettres, des signes ou des espaces, et ce, par la présence ou l'absence sur une grille de ces points noirs que l'on appelle pixels. L'OCR les transformera alors en caractères informatiques.
• Le manuscrit
La simple analyse d'un point sur une abscisse et une ordonnée ne suffit plus ! Il faut alors prendre en considération une troisième dimension qui est celle du temps, ou du déplacement si vous préférez. On fait alors appel aux réseaux de neurones.
Les opérations d'océrisation devront être menées d'une façon minutieuse pour atteindre la qualité souhaitée. en savoir plus

RETOUR AUX QUESTIONS

5/ Les documents à numériser doivent-ils obéir à certaines normes de présentation, telles les marges, interlignes, types de polices ...?
Le logiciel de reconnaissance est en mesure de reconstituer le texte dactylographié, quelles que soient les variations de présentation du document source. En ce qui concerne les signes spéciaux, mots inconnus et autres, tout logiciel peut accroître sa compétence de traitement par apprentissages successifs : il suffit de lui "apprendre" à identifier un signe inconnu et de le stocker dans sa bibliothèque pour qu'il le reconnaisse automatiquement lors des passages suivants.
En revanche, la reconnaissance d'écriture manuscrite porte en elle un peu plus de contraintes : pré-casé, écriture non cursive ou recherche dans un ensemble fermé. Les montants des chèques sont par exemple un ensemble fermé.

RETOUR AUX QUESTIONS

6/ Pourquoi numériser peut s'avérer si compliqué ?

• Parce que, dans bien des cas, numériser et reconnaître des caractères n'est pas suffisant.
En effet, on passe ensuite à la reconnaissance "sémantique" des mots : il s'agit alors d'associer chaque chaîne de caractères (c'est-à-dire une image graphique) à un mot, selon un processus de décision qui tient compte du contexte des mots voisins et se réfère à un dictionnaire de formes. Lorsque certaines chaînes sont "douteuses" (plusieurs " candidats lexicaux " possibles, aucune référence ...), il s'agit d'interpréter le mot et de l'analyser suivant son sens ou son contexte : " M. " " Mr " " Monsieur ", et de le traduire alors tel que vous le souhaitez.
Mais si la difficulté s'accroît, on est alors confronté à un mot, non plus par son sens, mais par sa nature, et donc par sa destination. Si " Monsieur " est une civilité qui doit renseigner un champ dans une base de données, par exemple.
• Un autre exemple rapide : une des spécialités de API est de numériser et traiter les retours de courriers dits " NPAI " (N'habite Pas à l'Adresse Indiquée). Nous sommes alors en présence d'enveloppes, barrées d'un magnifique " NPAI " manuscrit et à partir desquelles il va falloir reconstituer

une base de données des adresses à corriger ou à éliminer.
Vous comprenez bien que le simple traitement OCR ne vous donnera jamais satisfaction. Il faudra donc être capable de :
1° Numériser
2° Nettoyer l'image
3° OCR
4° Mettre au format standard (Mr = Monsieur)
5° les baliser (Monsieur = Civilité)

RETOUR AUX QUESTIONS

7/ Est-ce que le document numérisé conservera la mise en page de l'original ?
Il est possible d'obtenir la même présentation en utilisant des procédés tels que le format pdf, qui génère une image électronique fidèle au document original : textes, illustrations, etc….
Pour un document numérique dynamique, il est possible de définir des règles de présentation : on peut donc créer une mise en page sur mesure et qui sera parfois de meilleure qualité que le document original !

RETOUR AUX QUESTIONS

8/ Que se passe-t-il si le document à numériser présente des particularités : reliure, marge étroite, qualité médiocre, etc… ?
Le scanner à plat est parfois inopérant. Nous mettons alors en œuvre des " scanners-berceaux " qui permettent une saisie optimum de l'image, tout en préservant l'état des reliures.
Il existe également plusieurs alimenteurs de documents en fonction de leur taille et de leurs caractéristiques.
Les méthodes que nous mettons en place permettent aussi de régler les niveaux de contraste et de visualisation, en adéquation avec le document. Ils réduiront les sources de bruit dans l'image et signaleront tout signe parasite résiduel après filtrage (caractère brisé, etc…).

Ainsi, nous sommes allés jusqu'à concevoir nos propres outils de numérisation (API-System®) afin de numériser des documents hautement sensibles.

RETOUR AUX QUESTIONS

9/ Qu'est ce qu'un document " hautement sensible " ?
C'est un document qui est en général fragile, unique et non reconstituable ; de plus, il est souvent confidentiel. Fragile, car ce sont fréquemment des pelures ou des documents anciens ; et non reconstituable veut dire qu'une fois détruit, il sera impossible d'en reconstituer l'objet.

RETOUR AUX QUESTIONS

10/ Qu'est ce que l'indexation d'un document ?
L'indexation est une méthode qui permet de retrouver automatiquement un terme (ou une combinaison de termes) à partir de clefs prédéfinies.
Pour prendre une analogie, lorsque vous désirez rechercher rapidement un mot dans un document Word, vous procédez à l'opération "Rechercher" sous le menu Edition et introduisez un terme de requête dans une boîte de dialogue.

Dans nos métiers l'indexation est un principe similaire mais plus puissant qui permet à l'utilisateur de retrouver instantanément n'importe quelle information dans un immense corpus d'archives.
Par l'utilisation de langages de structuration des données tels que le XML, il est possible de concevoir des systèmes de recherche multicritères (ex : rechercher deux mots voisins dans la même page). Il est également possible de créer des sommaires automatiques à partir des titres et sous-titres, grâce à des connexions définies par l'utilisateur.
Si l'on est conduit à insérer de nouvelles informations dans un document ou à remettre à jour un titre, la remise à jour du sommaire et sa re-pagination se feront alors automatiquement

Pour indexer, il aura fallu procéder au traitement de l'information textuelle.

RETOUR AUX QUESTIONS

11/ Quels types de documents une société peut-elle faire circuler par Intranet ?
Une telle architecture permet de faire partager tout document, qu'il s'agisse de documents de référence anciens comme de nouvelles plus fraîches, que ce soient des documents provenant de l'extérieur ou des informations internes : bulletin intérieur, circulaires, double des textes affichés, notes de service, notes de procédure, courriers, rapports d'études, bilans, compte-rendus de réunion, rapports annuels, rapports d'intervention, formulaires à transmettre, bons de commande, de livraison, de facturation, ...
C'est donc la mise à disposition de toutes les informations qui jusqu'alors restaient trop souvent empilées dans les placards.
Sans oublier, grâce au multimédia, la possibilité de distribuer des documents graphiques, sonores ou vidéo et de créer une messagerie interne, un forum de discussion, etc…

RETOUR AUX QUESTIONS

12/ Un tel partage de l'information ne remet-il pas en question les structures hiérarchiques au sein de l'entreprise ?
Un accès partagé à l'information peut rendre l'organigramme d'une société plus flexible, raccourcir les circuits de décision, et ce, sans mettre à mal son organisation. Lorsque l'information circule de manière transversale, chacun acquiert une vision plus globale, et contextualise mieux sa contribution personnelle. Ce qui se traduit généralement par un degré de satisfaction supérieur et un sentiment de responsabilité plus élevé.

RETOUR AUX QUESTIONS

13/ Cependant n'est-il pas dangereux de laisser l'information à portée de toutes les mains ?
Certes, mais l'information devient progressivement la première richesse de l'entreprise.
La question est donc de mettre en place des sécurités qui soient à la mesure de la nature de l'information traitée.

RETOUR AUX QUESTIONS

14/ L'information et la connaissance sont-elles vraiment les premières richesses de l'entreprise ?
° Oui, comme fond de commerce, quand elle est la base sur laquelle se construit la “ relation client ”.
° Oui, comme partie intégrante de la production, quand l'ISO et les certifications aidant, les procédures prennent davantage de place.
° Oui, comme matière première quand c'est le document et l'information qu'il porte qui font l'objet du traitement par l'entreprise.
° Oui, comme mémoire de l'entreprise et de ses savoir-faire quand il est question de donner accès aux archives sans payer le prix d'un stockage inutile.

RETOUR AUX QUESTIONS

15/ L'information électronique c'est bien joli, mais comment puis-je accéder à des documents s'il y a une panne de réseau dans ma société ?
Il y a fort peu de chances pour que seul le traitement de l'information soit concerné dans une panne de réseau. Exprimé différemment, nous serions tenté de dire que si une panne de réseau intervient dans votre entreprise, l'accès à l'information électronique deviendra l'un de vos nombreux problèmes !

RETOUR AUX QUESTIONS

16/ Gérer l'écrit de demain avec les outils d'hier ?
Les distances s'annulent : la différence n'existe plus entre deux bureaux, deux étages ou deux continents .
Le temps se rétrécit : l'écrit doit circuler à la vitesse de la lumière et l'information doit être traitée non plus séquentiellement mais en parallèle.
Dans les faits, cela revient à dire que si l'information garde toute sa valeur, c'est en revanche le support qui change : la tablette a cédé la place au papyrus qui s'est effacé pour le parchemin, écarté au profit du papier…..qui côtoie désormais la fibre optique des câbles sous-marins, les liaisons satellites et la paire torsadée de nos LAN !
Il convient donc de plus en plus souvent de dématérialiser le support pour le rendre “ virtuel ” ou “ électronique ” et l'enrichir d'une nouvelle valeur ajoutée.

RETOUR AUX QUESTIONS

Retour haut de page