En s’appuyant sur des technologies d’intelligence artificielle, la lecture automatique de documents a fait un saut qualitatif.
De prime abord, le principe de lecture automatique de documents (LAD) paraît simple. Des scanners de production numérisent à la volée des lots de documents papier préalablement ” modélisés ” – formulaires, factures, etc. Puis des moteurs de reconnaissance de caractères manuscrits et imprimés (OCR, ICR) ou de cases à cocher (OMR) entrent en jeu pour extraire les informations pertinentes – référence client, montant de la commande, etc. Lorsque les caractères ne sont pas reconnus, le système présente une image numérique à l’opérateur de saisie, qui confirme ou infirme “manuellement” les différentes options qui lui sont proposées. Dans la réalité, les solutions de LAD ont peu de points communs avec les logiciels d’OCR vendus en boîtes dans le commerce. Segmenter les mots et les phrases, éliminer les caractères parasites, reconstituer les caractères mal formés, raturés ou “abîmés”, : tout l’enjeu de la LAD consiste à reproduire le travail de l’?”il et du cerveau. Elle s’appuie pour cela sur des technologies d’algorithmes avancés, d’intelligence artificielle (réseaux neuronaux) et d’apprentissage par l’exemple.Avec l’explosion des architectures distribuées, les éditeurs ont aussi fait évoluer leurs solutions vers un traitement unifié des flux d’information, quelle qu’en soit la source: fax, courrier, fichier bureautique, EDI (échange électronique de données) ou e-mail. La convergence entre la gestion documentaire et la LAD est d’autant plus grande que, à l’exception de la phase initiale de numérisation, le processus de traitement est ensuite identique pour un formulaire électronique ou papier – tri, extraction et lecture des données, tests de cohérence, traitement et validation. Le tableau ci-contre présente trois solutions qui automatisent le traitement du document, qu’il soit papier ou numérique.
Trois solutions de lecture automatique de documents
Solution
Fournisseur
Environnement
AD’DOC
IMDS Software
Développement : C, C++. Système d’exploitation : Windows 9x/2000/NT.
Eyes & Hands Forms 5
Readsoft
Développement : Visual Basic, C++. Système d’exploitation : Windows 9x/2000/NT.
XDataFlow
Itesoft
Développement : Java, C++. Système d’exploitation : Windows 2000/NT.