Traitement de l'information textuelle

Le traitement de l'information sous forme de texte

Dans le premier atelier, vous avez découvert ou redécouvert l'étendue de nos savoir-faire pour ce qui concerne le traitement de l'image numérisée, dans cet atelier, nous vous proposons d'entrer dans le document, c'est-à-dire d'en extraire le texte utile et pertinent, de procéder au traitement de l’information textuelle.
Imaginez vouloir mettre en place une veille concurrentielle à partir de piges de presse. Les informations seront ainsi recueillies intelligemment et automatiquement. Ce résultat peut être obtenu avec l'utilisation de traitements sur l'information textuelle. A partir d'une image numérisée, une étape préalable d'OCR est nécessaire.

1. L'OCR, reconnaissance automatique de caractères, consiste à analyser des ensembles de points pour les rapprocher de formes identifiables de caractères utilisés. C'est un traitement qui tend maintenant à se généraliser et vous trouvez sur le marché des logiciels performants. Notre

expertise OCR

réside dans l'adaptation et l'usage combiné de ces outils pour atteindre un résultat réellement optimal et de façon automatisée.

2. C'est ensuite l'étape du traitement textuel. C'est une étape à forte valeur ajoutée qui se décompose en trois opérations ("morphologique", "syntaxique" et "sémantique") :

Ces opérations de traitement de l'information textuelle vont permettre de baliser et d'indexer le document. L'automate pourra alors appliquer une mise en forme et créer des résumés.

3. Après ces traitements, nous re-matérialisons l'information dans le format le plus adapté à l'environnement de nos clients.

Retour haut de page