1. Précision de la reconnaissance
C’est de fait la fonction principale des logiciels d’OCR, les autres outils associés n’étant que des ajouts accumulés au fur et à mesure de la succession des versions. Si des progrès ont été incontestablement réalisés au cours de ces dernières années, force est de constater, au vu des résultats obtenus lors de nos tests, que ces logiciels n’ont pas encore atteint un niveau de qualité satisfaisant.En effet, parmi les quatre produits testés, un seul a pu effectuer une reconnaissance sans faute d’un document simple (une impression laser, sans difficulté). Un acte notarié photocopié, certes de mauvaise qualité, n’a même pas pu être traité par un des logiciels (Readiris Pro 7).Les fonctions de nettoyage (retrait des taches sur le document numérisé) sont assez inégales d’un logiciel à l’autre. En revanche, les textes issus d’imprimantes matricielles sont maintenant assez bien retranscrits.
Les résultats | ||||
Classement | Commentaires | Note | ||
FineReader Office 5.0, d’Abbyy | Seul logiciel à ne commettre aucune erreur sur un document émanant d’une imprimante laser. | 6,8 | ||
OmniPage Pro 11, de ScanSoft | Il rencontre de grandes difficulés avec les caractères isolés, et supporte mal les parasites. | 5,5 | ||
Readiris Pro 7, d’Iris | Il se révèle surtout efficace avec les impressions matricielles. | 4,6 | ||
TextBridge Pro Millennium, de ScanSoft | Il reconnaît bien mieux les documents numérisés en niveaux de gris. | 4 | ||
2. Respect de la mise en page
Il serait ici plus judicieux de parler de ressemblance plutôt que de respect de la mise en pag : taille ou enrichissement des polices non respectés, problèmes de reconnaissance des indices et des exposants, mauvais démarquage des zones, mauvaise reconnaissance des lettrines, non respect des alignements, etc., sont autant de problèmes régulièrement rencontrés. L’écueil le plus visible : un rendu des couleurs, texte et fond de pages, qui trop souvent ne respecte pas l’original. Seul un logiciel (OmniPage Pro 11) gère correctement l’export HTML de bout en bout. Pour les exports vers Word, tous les produits respectent les colonnes, mais occultent les titres en couleur.
Les résultats | ||||
Classement | Commentaires | Note | ||
OmniPage Pro 11, de ScanSoft | Globalement satisfaisant, mais l’analyse des zones et le respect des couleurs sont encore perfectibles. | 7,5 | ||
TextBridge Pro Millennium, de ScanSoft | Le détourage des images n’est pas automatique, et les couleurs ne sont pas respectées. | 6,4 | ||
FineReader Office 5.0, d’Abbyy | Des problèmes évidents avec les documents présentant du multicolonnage. | 6,4 | ||
Readiris Pro 7, d’Iris | Il se révèle déplorable quant à l’export HTML et présente de grandes difficultés à reproduire les couleurs. | 5,1 | ||
3. Gestion des tableaux
Dans ce domaine également, on est loin de la perfection, la mise en page finale étant généralement décevante. Un seul logiciel (FineReader Office 5.0) peut reconnaître du texte placé horizontalement dans une cellule. La fusion des cellules n’est pas toujours possible. De même, les alignements et le centrage vertical ou horizontal ne sont pas toujours respectés. Seul OmniPage Pro 11 crée une feuille par document au sein d’un même classeur.Deux logiciels sont incapables d’analyser correctement les zones par défaut. La retranscription des couleurs (texte et fond) est globalement déplorable. En ce qui con- cerne les données financières, les monnaies sont parfois mal reconnues (le symbole ” $ ” n’est pas du tout pris en compte par TextBridge Pro Millennium !), mais l’euro est, quant à lui, déjà adopté par tous les logiciels testés.
Les résultats | ||||
Classement | Commentaires | Note | ||
FineReader Office 5.0, d’Abbyy | Le seul à accepter le texte horizontal, il présente des difficultés à respecter l’alignement et le centrage dans les cellules. | 7,7 | ||
OmniPage Pro 11, de ScanSoft | Ne reproduit pas les couleurs (texte et fond) du document original. | 7,4 | ||
TextBridge Pro Millennium, de ScanSoft | Une reconnaissance limitée à sa plus simple expression : pas de fusion de cellules ni de respect de l’alignement ou du centrage. | 5,6 | ||
Readiris Pro 7, d’Iris | Il est incapable de reconnaître du texte sur plusieurs lignes dans une seule cellule. Même chose concernant le texte placé horizontalement dans une case. | 4,2 | ||
4. Vitesse de reconnaissance
Les tests de vitesse ont tout d’abord été réalisés à partir d’un texte émanant d’une imprimante laser qui ne présentait ni difficulté ni piège, puis d’un document de dix pages de même qualité. Pour les deux épreuves, le classement à l’arrivée des produits s’est révélé le même. Dans la plupart des cas, la reconnaissance est plus rapide en moyenne par page pour un gros document que pour un document unique (à peu près équivalente pour TextBridge Pro Millennium).
Les résultats | ||||
Classement | Commentaires | Note | ||
TextBridge Pro Millennium, de ScanSoft | 2,7 secondes pour une page unique ; 2,7 secondes par page en traitement par lots. | 10 | ||
Readiris Pro 7, d’Iris | 3,9 secondes pour une page unique ; 2,9 secondes par page en traitement par lots. | 8,5 | ||
OmniPage Pro 11, de ScanSoft | 5,2 secondes pour une page unique ; 3,7 secondes par page en traitement par lots. | 6,5 | ||
FineReader Office 5.0, d’Abbyy | 7,5 secondes pour une page unique ; 4,7 secondes par page en traitement par lots. | 5 | ||
5. Traitement par lots
Dans ce domaine, FineReader Office 5.0 et OmniPage Pro 11 se détachent nettement, avec une mention spéciale pour ce dernier, à qui rien ne manque ou presque. Seule la capacité à traiter un lot de documents répondant à différents gabarits est absente, mais ce défaut est commun aux quatre produits testés. Autre déception : l’impossibilité quasi générale d’ajouter de nouvelles pages en complément à un document texte déjà existant.Les logiciels de ScanSoft autorisent la planification dans le temps de l’opération de reconnaissance. FineReader Office 5.0 et OmniPage Pro 11 sont capables d’effectuer la correction automatique d’un document tout en réalisant simultanément la reconnaissance d’un autre, d’où un gain de temps non négligeable.
Les résultats | ||||
Classement | Commentaires | Note | ||
OmniPage Pro 11, de ScanSoft | Il ne lui manque que la gestion des gabarits avec des cadres différents à chaque document. | 9,5 | ||
FineReader Office 5.0, d’Abbyy | Il ne permet pas de planifier dans le temps la numérisation et la reconnaissance des lots de document. | 8,4 | ||
TextBridge Pro Millennium, de ScanSoft | Il n’autorise pas la numérisation des documents par lots, mais seulement leur reconnaissance. | 4,4 | ||
Readiris Pro 7, d’Iris | Il se limite à la reconnaissance du lot et à des fonctions basiques (détection du sens de la page, enregistrement d’un gabarit, etc.) | 3,8 | ||
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.