Passer au contenu

Classement par critère

1. Richesse des formats indexésUn moteur doit pouvoir indexer un nombre varié de documents pour balayer un environnement très large. Pour nos tests, l’indexation de 35…

1. Richesse des formats indexés

Un moteur doit pouvoir indexer un nombre varié de documents pour balayer un environnement très large. Pour nos tests, l’indexation de 35 formats différents a été imposée à chaque moteur. Celui de Verity, par exemple, est assez complexe à paramétrer et il est nécessaire d’affiner plusieurs fois son script d’indexation pour qu’il active correctement ses filtres. Certains moteurs nécessitent donc un paramétrage assez complexe.Les filtres fournis en standard ont été utilisés pour tous les logiciels. C’est celui de Microsoft qui en gère le moins, l’éditeur préférant s’appuyer sur des éditeurs tiers pour le développement de ses IFilter. Corel WordPerfect 7 est ignoré par celui de Hummingbird, ceux de Microsoft et de Verity n’indexent pas Visio. Enfin, le moteur de Verity est le seul à indexer le format EPS et les fichiers de type PAO sont ignorés par tous.



































































 Les résultats 
 Produit     Commentaires     Note 
 Convera RetrievalWare 6.9 version US     3 formats seulement ont été ignorés (fichiers PAO). C’est le seul logiciel qui reconnaît le format ZIP sans qu’il soit nécessaire d’effectuer aucun paramétrage.     6,9 
         
 Hummingbird Fulcrum SearchServer 5.0 version US     6 formats ont été ignorés (ZIP, fichiers PAO et PostScript). L’ exclusion des formats se fait dans la base de registre et rend la manipulation périlleuse.     6,7 
         
 Verity K2 3.1 version US     Comme pour Fulcrum, 6 formats ont été ignorés (les fichiers PAO notamment). Mais le paramétrage de ses scripts d’indexation est délicate.     6,7 
         
 Microsoft SharePoint Portal Server 2001 version française     24 formats sont ignorés en standard. Mais grâce aux IFilter, d’autres formats peuvent être reconnus en téléchargeant le filtre ad hoc sur le site des éditeurs.     5,1 
 




2. Rapidité d’indexation

Ce critère n’est évidemment pas le plus déterminant pour le choix d’un moteur car l’indexation globale de la base documentaire n’est effectuée qu’une fois lors du lancement du projet. Ainsi, la génération de l’index pourra être considérée comme faisant partie de la phase de déploiement du moteur. Par la suite, le moteur indexe à la volée les nouveaux documents ajoutés à la base ou leur mise à jour. L’indexation d’un ensemble de 27 817 fichiers, dont 25 175 fichiers HTML, a été imposé au moteur.Il est important de ne pas dissocier ce critère de temps de celui du nombre de fichiers indexés. En effet, un moteur rapide mais qui ignore de nombreux fichiers ne peut être considéré comme performant. En ce sens, il faut relativiser les résultats du moteur de Hummingbird qui, même s’il est deux fois plus lent que les autres à indexer l’ensemble des documents, n’a ignoré qu’un fichier. Dans le tableau, les notes sont déterminées à partir du nombre de fichiers indexés par seconde.



































































 Les résultats 
 Produit     Commentaires     Note 
 Microsoft SharePoint Portal Server 2001 version française     25 min pour indexer 25 477 fichiers. Index de la plus petite taille (51,9 Mo).     9,6 
         
 Convera RetrievalWare 6.9 version US     28 min pour indexer 27 814 fichiers. Index de 81,7 Mo.     9,5 
         
 Verity K2 3.1 version US     29 min pour indexer 25 157 fichiers. Index de 66,3 Mo. Difficulté avec les formules mathématiques.     8,9 
         
 Hummingbird Fulcrum SearchServer 5.0 version US     64 min pour indexer 27 816 fichiers. Un seul fichier a été ignoré. Taille de l’index : 98,8 Mo.     5,7 
 




3. Rapidité de consultation

Un site Internet ou un intranet n’aura de succès que si les utilisateurs ne perdent pas leur temps à attendre les résultats de leurs requêtes. Les éditeurs devaient donc paramétrer l’indexation optimale du temps de réponse. La plupart ont affirmé pouvoir faire mieux que ce qu’ils ont réalisé lors des tests de rapidité. Deux jours leur avaient été accordés pour paramétrer leurs logiciels. Il leur a aussi été demandé de développer une interface de recherche simple. 50, puis 100 utilisateurs simultanés ont, en tout, effectué 300 requêtes. Les temps de réponse minimaux, moyens et maximaux du moteur ont été mesurés.



































































 Les résultats 
 Produit     Commentaires     Note 
 Verity K2 3.1 version US     De loin le plus rapide pour l’ensemble des tests où il obtient quasi sytématiquement la première place que ce soit avec 50 ou 100 utilisateurs simultanés.     8,5 
         
 Hummingbird Fulcrum SearchServer 5.0 version US     Entre 1,4 (50 utilisateurs) et 2,2 fois (100 utilisateurs) moins rapide que K2. Les temps d’accès auraient sans doute été plus courts si nous avions utilisé l’interface SQL fournie (moins conviviale évidemment).     5,7 
         
 Microsoft SharePoint Portal Server 2001 version française     L’interface de consultation par défaut en Visual Basic Script est conviviale. Entre 1,9 (50 utilisateurs) et 3 fois (100 utilisateurs) moins rapide que K2.     5,1 
         
 Convera RetrievalWare 6.9 version US     Environ 4 fois moins rapide que K2. L’éditeur estime qu’un paramétrage plus pointu aurait permis de meilleurs résultats.     2 
 




4. Pertinence des réponses

Ce critère est difficile à évaluer car juger de la pertinence d’une réponse à une requête est la plupart du temps très subjectif. Pour y parvenir, nous avons choisi d’indexer un ensemble de 6 200 fichiers des articles issus du site 01net.com et 6 requêtes ont été soumises à chaque moteur. Les 5 premiers documents retournés par chaque requête ont ensuite été analysés séparément par un jury de 8 personnes constitué de journalistes et de documentalistes ayant une bonne connaissance du sujet.Certains résultats sont assez surprenants. Pourtant cette pertinence constitue une des qualités les plus recherchées par ceux qui investissent dans des moteurs. Retrieval Ware se retrouve en tête avec un minimum de hors sujets, mais avec des résultats assez moyens. Le tableau suivant recèle quelques perles…



































































 Les résultats 
 Produit     Commentaires     Note 
 Convera RetrievalWare 6.9 version US     Une brève de trois lignes ” Live Picture améliore l’impression via Internet ” répond à la requête ” start-up Internet commerce ” (3e position)…     5,8 
         
 Hummingbird Fulcrum SearchServer 5.0 version US     ” Cegetel riposte à Tele2 ” répond à la requête ” Baisses PC grand public ” (5e position)…     4,8 
         
 Verity K2 3.1 version US     ” Microsoft assoit sa stratégie sur XML ” répond à la requête ” start-up Internet commerce ” (2e position)…     4,7 
         
 Microsoft SharePoint Portal Server 2001 version française     Un article ” Cegetel riposte à Tele2 ” répond à la requête ” Baisse PC grand public ” (1re position)…     4,6 
 




5. Exploitation

Pour ce critère, il a fallu se pencher tout d’abord sur la création et la mise en place de l’index en évaluant la présence et la facilité d’utilisation de différentes technologies d’indexation comme l’indexation en mode bulk, l’indexation de sites multiples… Ensuite, nous avons analysé la réindexation et ses différents modes : incrémentale, automatique, ainsi que la possibilité de pouvoir lancer une recherche durant la mise à jour incrémentale.Puis nous avons testé l’indexation de site distant et enfin la richesse des opérateurs de recherche. Ce dernier paramètre a permis de départager les équipements. Nous avons testé la possibilité de faire des recherches sur des zones, de faire des recherches en langage naturel de type “Comment…”, “Où est”, “Qui a”, d’utiliser la syntaxe Internet + ?” etc. Tous les moteurs sauf Microsoft possèdent un mode bulk qui permet d’enrichir manuellement l’index.



































































 Les résultats 
 Produit     Commentaires     Note 
 Verity K2 3.1 version US     La mise en ?”uvre demande une solide formation. Le logiciel ne dispose pas d’interface graphique mais est complet en matière d’opérateurs de recherche.     9,9 
         
 Convera RetrievalWare 6.9 version US     L’interface est atypique mais au bout du compte agréable et efficace. Bonne richesse en ce qui concerne les opérateurs de recherche.     9,7 
         
 Hummingbird Fulcrum SearchServer 5.0 version US     La prise en main du logiciel est assez aisée mais son exploitation réclame une formation solide. Grande richesse des opérateurs de recherche.     9,4 
         
 Microsoft SharePoint Portal Server 2001 version française     Prise en main et exploitation très agréables. En revanche, il dispose de peu d’opérateurs de recherches avancés.     8,5 
 



🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Thibault Michel