· Tech watch

Organiser sa gestion documentaire (première partie)

Selon un sondage 2002 organisé par le Delphi Group, la plupart des entreprises manquent considérablement d’organisation pour leur gestion documentaire.

Les résultats de ce sondage annoncent que près de 70 % des utilisateurs n’arrivent pas à (re)trouver sur le réseau les informations dont ils ont besoin. Etant dans la nécessité d’exploiter des dossiers, des articles, des documents capitalisés sur leur intranet ou sur le Web, les employés passent près de deux heures par jour à chercher ces informations ; soit environ cinq jours pas mois, et soixante par ans ! Cette perte de temps doit être prise en compte par l’entreprise.

Si les documents sont réutilisés, améliorés chaque jour, les dernières mises à jour disponibles posent souvent un problème de coordination entre les intéressés. De plus, la quantité d’information produite par chaque employé double en moyenne tous les deux ans. La gestion du cycle de vie des documents (archives, versions) crée une quantité de données grandissant de manière exponentielle, ce qui devient vite ingérable si une solution n’est pas mise en place.

En étudiant le travail des documentalistes, on peut retrouver ces méthodes. Les opérations de tri manuel ne sont pas de bonnes solutions pour les grandes entreprises en phase d’expansion. On peut donc se demander quels sont les cheminements à suivre pour aboutir à un système ordonné : comment adapter sa démarche pour trouver un système de classement automatique et de recherche performant, capable de s’adapter à l’activité de l’entreprise ?

Nous verrons qu’il s’agit de réunir l’ensemble des sources de données à étudier, puis de les décrire chacune de manière détaillée. Ces descriptions pourront suivre plusieurs types d’analyse différents, ce qui, selon le métier étudié, permettra une classification intelligente et bien représentative de l’activité de l’entreprise. Il ne restera plus qu’à choisir les interfaces de recherche que l’on souhaite implémenter.

Les sources de données

Avant de s’intéresser aux types de solutions existantes, on doit pouvoir être capable de définir l’univers documentaire que l’on veut exploiter. L’information étant la plupart du temps disséminée sur des disques physiques, dans des bases de données, sur le web (intranet, extranet…), il est nécessaire d’avoir accès à tous ces supports de stockage pour pouvoir prendre en compte la totalité de l’univers. Cette collecte d’information peut poser des soucis, notamment pour la lecture de certains fichiers comme les formulaires html, les documents multilingues ou dotés de caractères spécifiques (UTF-8, ISO-8859-15…).

Un utilisateur doit, dans sa démarche, établir la liste de tous les formats documentaires à traiter (pdf, excel, xml…), mesurer l’espace disque que représente son patrimoine, différencier les types de contenus (journalistique, scientifique, biologique…), établir les permissions qui leurs sont accordées (on parle de workflow documentaire), recenser le nombre de langues différentes (française, anglaise, espagnole…) et les jeux de caractères utilisés (ISO, UTF…).

Fort de cette inventaire, on peut mieux définir les bases d’une indexation, et chercher un outil qui répond aux contraintes techniques existantes.

L’indexation et le classement

Définition

L’indexation d’un texte consiste à repérer et extraire certains mots ou expressions particulièrement significatifs (appelés « termes ») dans un contexte donné, et à créer un lien entre ces termes et le texte original.
L’outil de choix sera capable d’attribuer à chaque document des marques distinctives, renseignant avec pertinence sur le contenu, en vue de le classer.

L’indexation distingue généralement les informations sur la structure du document (ou si l’on préfère les « méta données » ; on parle de l’intention du document) des informations de contenu propre à chaque document (l’extension du document). Toutes ces informations constituent ce qu’on appelle une taxinomie : une chaîne composée de valeurs nécessaires et suffisamment significatives pour identifier le document parmi toute une diversité[le terme taxinomie est généralement utilisé dans le contexte de la biologie pour la classification des espèces ; voir par exemple cette [taxinomie des animaux ]].

Voici typiquement un problème de content management system (système de gestion de contenu) : comment définir la taxinomie de ses documents ? Il faut en premier lieu définir un objet « document » qui porte en lui toutes les caractéristiques des documents du patrimoine :

Une taxinomie des documents pourrait donc être organisée selon ces quatre couches descriptives, chacune définissant les propriétés vitales du document. On pourra par la suite lancer des recherches sur tous les attributs de description qui ont servi à l’indexation (recherche par date, propriétaire, langue, titre, plein texte, typographie…).

Le stockage de l’information

On utilise des structures de stockage pour conserver ces informations de classification. Les solutions techniques les plus fréquemment utilisées sont des tables de hachage ou des arbres AVL qui assurent la gestion des données de masse.

Si la structure d’indexation ne s’équilibre pas, ses catégories seront délocalisées ou noyées dans la masse d’information ; si l’analyse appliquée n’est pas spécialement adaptée aux types de contenus à traiter, des anomalies de sens dans le classement entraineront forcément des surplus d’incohérence ; si les documents sont trop volumineux, les tables d’indexation risquent de devenir presque aussi grandes que le capital lui même.

On emploie donc de nombreuses techniques de compression, qui réduisent ces bases volumineuses, les rendants plus concises et mieux exploitables :

stop words : interdire les traitements des mots redondants (la, le, un…) ;
stemming : réduction des mots par découpage ;
case folding : rassemblement des mots semblables mais écrits légèrement différemment ; le but est d’éviter les doublons de valeurs identiques (ex : de gaulle, degaulle, DeGaulle, DEGAULLE…).

De plus, les techniques de logique floue permettent aujourd’hui de conceptualiser un contenu, en « arrondissant » chaque phrase à sa valeur utile. Toujours dans le but d’éviter les erreurs de sens, la phonétisation permet de mener une analyse secondaire uniquement basée sur la sonorité des mots, ce qui réduit les possibilités de sens erroné.

La catégorisation documentaire

L’ensemble étant proprement indexé, il faut alors choisir une méthode pour classer les documents futurs ! Chaque document entrant devra suivre le processus de catégorisation et trouver une place unique dans le classement.
On parlera de catégorisation :
Manuelle : c’est une solution difficile à mettre en œuvre. Pour un petit patrimoine, cela reste toujours une solution mais la démarche n’est pas complète.
Par moteur de règles : typique du modèle efficace mais vite complexe. L’ordonnancement des règles doit suivre une logique de traitement préétablie, c’est à dire un traitement séquentiel afin d’éviter qu’un document ne suive une règle avant une autre. On se retrouve alors face à des soucis de maintenance (ordonnancement) et de modification de ces règles (effet de bord), d’où le besoin de prendre des précautions exemplaires de manipulation, voire de se faire seconder d’une ressource compétente.
Par apprentissage supervisé : le système nécessite un entraînement. Celui-ci se fait en donnant à l’agent (l’élève) une entrée ainsi que le résultat qui devrait théoriquement être obtenu. L’agent cherchera à minimiser l’erreur en comparant chaque document entrant avec les exemples de référence ; il tentera de se rapprocher de la solution la plus adéquate. Pour affiner le calcul, l’emploi des exemples négatifs permet d’ajouter un concept d’exception.

Par apprentissage automatique : les résultats sont assez encourageants dans le domaine de la construction automatique d’ ontologies [voir à ce sujet une étude sur les [ontologies et l’intéropérabilité ]] par analyse de corpus de textes propres à un domaine. Dans ce cas, le système construit une liste des principaux termes récurrents et tente de les relier en utilisant un dictionnaire ou un glossaire ainsi qu’une base de règles grammaticales (voir par exemple altavista 2.0).

L’étude du contenu se fait par exploitation du texte (text minnig). L’état de l’art aujourd’hui consiste à coupler une analyse linguistique à des algorithmes éprouvés de reconnaissance de forme (SPSS/Lexiquest, SAS/inxight).
Pour assurer la compatibilité, les moteurs d’indexation et de recherche sont souvent couplés (ex : Tropes/Zoom/index d’Acetic) ; ils peuvent la plupart du temps se greffer sur des applications de gestion répandues (Lotus/IBM, SharePoint/Microsoft). On trouve une grande diversité de choix et la concurrence se fait rude. La lutte se tient entre l’intéropérabilité de logiciels variés qui dialoguent ensemble, ou le choix d’un progiciel de gestion unique.

Conclusion

Dénombrer, rassembler et différencier son univers documentaire permet une indexation globale de ses documents.

Mais cette indexation ne prend pas en compte la valeur sémantique des documents : une phase d’analyse linguistique supplémentaire est nécessaire pour permettre des recherches plus élaborées sur les contenus.

Cette seconde phase fera l’objet de notre prochaine chronique : Organiser sa gestion documentaire (deuxième partie) : Analyse linguistique et recherche.

12 commentaires

  1. toyi thomas

    pouvez-vous me faire un plan de classement desdocument en terme de module de formation?

    merci

  2. Nicolas Hoizey

    Pourriez-vous être plus explicite ?

  3. Bonjour je souhaiterai savoir quels sont les critères clefs et références à prendre en compte pour une gestion documentaire manuelle dans un établissement de santé de petite taille( 25 lit) avec un plateau technique,(kiné, infirmière etcccc..), un hôpital de jour, un restaurant , un service blanchisserie, et bien sur une direction une administration….Cette question dans le but de répondre à deux questions.Quels sont les points faibles et comment remedier aux problèmes rencontrés.Merci d’avance
    Nicolas
    (ps: il s’agit d’une évalluation d’un système manuel déja existant )

  4. j’ai lu votre article et je l’ai trouver un peu compliquer, je cherche une documentation plus simple sur l’organisation et gestion documentaire

  5. Bonjour,

    Je dois organiser à l’occasion du déménagement de ma société une procédure de gestion documentaire. Mais je ne sais pas trop par où commencer, ni quelle est la marche à suivre!

    Sous quelle forme doit se présenter une telle procédure?

    Merci pour votre aide

  6. DE BRAGELONGNE

    Pour ceux qui recherchent des informations sur la Gestion Documentaire, je vous recommande de vous connecter sur le site de DOCAPOST qui présenter les solutions aidant à mieux gérer le document dans l’entreprise.
    Bonne lecture.

  7. mariem bouyahiaoui

    Bonjour,

    on dois mettre en place un dispositif de formation continue pour les fonctionnaires . quelles techniques de gestion doit -on adapter pour organiser la gestion documentaire.
    Sous quelle forme doit se présenter cette organisation, sachant que notre organisme de formation est public ?

  8. hachemi chebbah

    Bonjour,
    J’aimerais bien avoir des informations ou des documents sur la gestion des documents techniques (plans, note de calcul, etc) au sein d’une entreprise à caractère industriel. surtout en ce qui concerne les modifications. Merci.

  9. Charlotte

    Bonjour, je suis dans une entreprise et je travailler sur un projet de mise en forme d’un centre de documentation. Pouvez-vous me dire comment m’y prendre,quelle est la methode la plus facile d’y parvenir? Merci.

  10. Et pour tous les messages précédents, vous ne voulez pas qu’on vous mâche le travail aussi ? Vous le voulez servi sur un plateau d’argent peut-être ?

    Le pire c’est que l’article date de Mai 05 (mais les gens ne prennent même pas le temps de regarder ça), et c’est le blog d’une société de conseil, c’est à dire qu’il faut les payer pour avoir des conseils.

    Il y a trop de blogs pollués par des gens qui pensent qu’on doit leur accorder du temps et leur fournir une solution. En général, les commentaires permettent d’apporter une contribution, mais bon, c’est plus facile de faire une demande que de produire quelque chose.

  11. Réponse « OMG » que je trouve scandaleuse.
    Cette personne doit ou va certainement rencontrer de grosses difficultés professionnelles.
    Voici pour ma « contribution ».

  12. Merci pour le diaporama qui me permet dans un premier temps de me dégrossir dans mes recherches.

    Je l’ai téléchargé afin de mieux m’en imprégner en version papier.

Les commentaires sont désormais fermés.