| D |
Traitement de l'information textuelle
Dans le premier atelier, vous avez découvert ou redécouvert l'étendue des savoir-faire de API en ce qui concerne le traitement de l'image numérisée. Dans ce second atelier, nous vous proposons maintenant d'entrer dans le document, c'est-à-dire d'en extraire le texte utile et pertinent. Imaginez un instant pouvoir mettre en place une veille concurrentielle (sur des entreprises ou des acteurs politiques) à partir de piges de presse. Les informations seraient ainsi recueillies intelligemment et automatiquement. Ce résultat peut être obtenu avec l'utilisation de traitements sur l'information textuelle. A partir d'une image numérisée, une étape préalable d'OCR est nécessaire. 1. L'OCR, reconnaissance automatique de caractères, consiste à analyser des ensembles de points pour les rapprocher de formes de caractères utilisés. C'est un traitement qui tend maintenant à se généraliser et vous trouvez sur le marché des logiciels performants. Nous ne voulons pas perdre de temps à écrire de nouveaux logiciels. Notre expertise en OCR réside dans l'adaptation et l'usage combiné de ces outils pour atteindre un résultat optimal de façon automatisée. 2.
C'est ensuite l'étape du traitement textuel.
Ces opérations de traitement de l'information textuelle vont permettre de baliser et d'indexer le document. L'automate pourra alors appliquer automatiquement une mise en forme et créer des résumés. 3. Après ces traitements, nous re-matérialisons l'information dans le format le plus adapté à l'environnement de nos clients. |
| Rubrique : ATELIERS | Retour : Haut de page |
| |
|
![]() |
![]() |
|||||
|
|
|
|||||