Rastell Toull

Site web consacrée à la Bretagne,
à l'Afrique du nord
à la chanson française,
à la recherche scientifique,
et à bien d'autres sujets ...

Les bases d'informations :
Le projet Miscellanées

par Jacques-Deric Rouault

Article original
Page publique
Page opérationnelle

Version 4.1 du
4 Mai 2012

Table thématique
Table chronologique
Administrateur du site
Comment citer ce document ?
Jacques-Deric Rouault, 2012. Les bases d'information : le projet Miscellanées. Rastell Toull page C128.

1  Le projet Miscellanées

    Le projet Miscellanées désigne à fois la description, l'enseignement et la réalisation de bases d'informations, telles qu'elles sont décrites ci-dessous. Le terme français miscellanées (miscellanea, miscellany, miscellaneous en anglais, avec un sens identique) désigne une réunion d'éléments disparates, par exemple une miscellanée de légumes. Ce terme est principalement utilisée en littérature pour qualifier un livre qui rassemble des fragments disparates.

    Le présent site web Rastell Toull est un exemple de réalisation du projet Miscellanées.


2  Présentation

    Aujourd'hui, les outils informatiques permettent de rassembler dans un ensemble unique des informations de natures initialement très hétérogènes se rapportant plus ou moins à un sujet précis. Ces informations peuvent être des textes, des graphismes artistiques ou techniques, des photographies, des sons, des videos, des programmes informatiques, des tableaux de données, ... Si certaines informations sont dès le départ numériques ou directement numérisables, d'autres, comme les images ou les sons, peuvent être numérisées à l'aide de logiciels aujourd'hui simples et libres.

    La question qui se pose alors est de savoir comment organiser ces informations pour être en mesure de les mettre à jour et/de les modifier facilement, de les compléter de façon cohérente par de nouvelles informations (opérations de maintenance et de mise à jour) (certaines de nature nouvelle initialement non prévues) d'une part, et de les consulter simplement par des personnes non informaticiennes d'autre part, ces deux approches étant en partie contradictoires.

    La solution consiste à mettre toutes ces informations sous la forme de fichiers textes reliés entre eux par des liens hypertextes. Sachant que le nombre de liens potentiels croit comme le carré du nombre de fichiers ... on arrive vite à des situations inextricables où même une chatte ne retrouverait plus ses petits ... Tous ceux qui s'y sont frottés en ont fait l'amère expérience : quand on gère plusieurs centaines ou milliers de fichiers, il devient de plus en plus difficile de retrouver une image particulière, qui peut être déclinée sous différents formats, ou même un texte particulier. Il suffit de se promener dans les blogs qui ont trop rapidement grossi pour comprendre le problème ...

    Ce qui est proposé
ici consiste à définir une structure précise pour l'organisation et les noms des fichiers. De cette façon, la base d'information pourra se développer de façon cohérente comme un cristal croit à partir d'un germe bien régulier.

    Nous ferons le distinguo entre une base d'informations qui s'applique à des informations hétérogènes de natures et de tailles très variables des bases de données qui sont des fichiers informatiques gérés par des logiciels comme Access et qui gérent des informations homogènes alignées suivant un format fixe et prédéfini. Ce site Rastell Toull est un exemple de base d'informations qui ne peut pas être confondu avec une base de données.

    En règle générale, on cherchera à se rapprocher des grandes classifications qui sont déjà en usage (CAS pour la chimie, CDD pour les livres ...)

3  L'analyse hierarchique descendante

    La base d'informations suivra à la fois une organisation rigide basée sur une structure d'arbre et une organisation très libre à l'aide de liens hypertextes. La base d'informations suivra également une organisation structurée en rubriques plus ou moins prédéfines et une organisation chronologique libre ...

    La structure d'arbre suit une organisation hiérarchique descendante. Le noeud initial est la base d'informations elle-même. De ce noeud initial partent des branches indépendantes. De chaque branche partent des sous-branches indépendantes, et ainsi de suite ...
L'intérêt de cette approche est que si on modifie l'organisation d'une branche, on n'a pas à toucher aux autres branches, dans la mesure où celles-ci sont indépendantes.

    On distingue au départ, à la base de l'arbre, deux branches principales : la branche des items, qui sont l'objet premier de la base d'information, et la branche du contexte, (ou l'ensemble des branches du contexte) qui décrit tout l'environnement des items.

4  La branche des items

    Dans cette branche, on considère tous les items qui font l'objet de la base d'information. Chaque items fait l'objet d'une fiche (page de texte, page web, ...).

    Dans cette fiche, on revoie à d'autres items, et aux différentes branches du contexte. Dans chaque fiche relative à un item, cet item est résumé sous la forme d'une ligne d'un tableau avec un autolien (lien vers la fiche elle-même). Pour les autres fiches d'item et les différentes branches du contexte, on fera un copié-collé de la ligne du tableau comportant l'autolien.

5  La branche du contexte

    Ici les choses sont moins évidentes, et nous allons tenter de décrire tous les éléments contextuels qui risquent d'interagir avec les items, sachant qu'un élément contextuel peut très bien interagir avec un autre élément contextuel ...

    Voici une première catégorisation d'un contexte, vu d'un point de vue très général :

    *  Les personnes
    *  Les lieux
    *  Les dates
    *  Les espèces
    *  Les minéraux
    *  Les produits chimiques
    *  Les méthodes
    *  Les objets matériels
    *  Les objets logiciels

6  La sous-branche du contexte relative aux personnes

    Chaque personne sera identifiée par son nom suivi de son prénom. En cas d'homonymie, comme c'est souvent le cas dans les généalogies, on précisera l'année de naissance. Cela suffit en général à lever les ambiguités.

    Pour les femmes mariées, il est d'usage d'utiliser le nom marital. Cela est de nature à poser de nombreux problèmes, par exemple en cas de mariages successifs ... En science, une jeune fille qui commence à publier sous son nom de jeune fille le garde après le mariage, en accolant à la suite son nom marital ...

     Les fichiers contenant des noms de personnes sont soumis à la loi Informatique et liberté de 1978, et sauf cas spécifiques, doivent être déclarés en conséquence à la CNIL.

7  La sous-branche du contexte relative aux lieux

    Les lieux seront structurés suivant un arbre qui commence par une zone géographique (continent, zone climatique), un pays, une région, un département, une commune ...

8  La sous-branche du contexte relative aux dates

    Les dates seront classées dans l'ordre chronologique avec un premier niveau pour l'année, un second pour le mois, un troisième pour le jour ...

    On suivra le codage 20120502 (pour le 2 Mai 2012) qui présente le très grand avantage de se classer automatiquement dans l'ordre chronologique en suivant l'ordre lexicographique.

La sous-branche du contexte relative aux espèces vivantes

    On classera les espèces selon les grands niveaux de la classification systématiques des êtres vivants : Phylum, Classe, Ordre, Famille, Genre, espèce, ...

    On peut renvoyer à la page Wikispecies correspondante, si elle existe ...

    La Notation Systématique Condensée ...

La sous-branche du contexte relative aux minéraux

    Dans cette sous-branche on trouvera les minéraux et matières premières non organiques.

La sous-branche du contexte relative aux produits chimiques

    Les produits chimiques sont des matières d'origine non organique (sauf exception), pures ou de composition définies, qui servent directement dans la vie courante, dans l'industrie ou au laboratoire.

    On distinguera :
        Les médicaments.
        Les produits alimentaires comme le lait, le beurre, ...
        Les carburants

    A chaque produit chimiques est associé un numéro CAS

La sous-branche du contexte relative aux méthodes

    Dans les méthodes, on distinguera les concepts, les méthodologies, les protocoles, les appareils, ...

La sous-branche du contexte relative aux objets matériels

    Il s'agit d'artefacts, objets non naturels façonnés par l'homme pour servir d'outils ...

    On pourra les ranger d'après leur matière première :

       * pierre
       * poterie
       * metal
       * bois
       * cuir
       * tissus
       * os
       * plastique
       * nacre


La sous-branche du contexte relative aux objets logiciels

    Par objet logiciel, on désigne des objets qui supportent une information. La nature de cette information peut être variée :
    *   écrite
    *   graphique (dessin, peinture, sculpture, photographie, ...)
    *   sonore
    *   audiovisuelle
    *   informatique (fichier de données, programme)

    On distinguera le support matériel de l'objet logiciel lui-meme : par exemple, un dessin, en tant qu'objet logiciel peut se retrouver sur une feuille de papier, un livre, un mur, qui peuvent être eux-même photographiés, scannés, et se retrouver sous la forme numérique d'un fichier JPEG.

    Pour les livres, depuis 1972, il existe un numéro ISBN
    Pour les revues, depuis 1975, il existe un numéro ISSN

    Les sujets des livres sont décrits à l'aide de la nomenclature Dewey ou CDD

L'implémentation informatique

    Première contrainte : en raison des incompatibilités de la désignation des sous-répertoires entre les systèmes d'exploitation MS-DOS et Windows d'une part, et Unix (Linux, Mac OS X) d'autre part, tous les fichiers relatifs à une base d'informations seront réunis dans le même répertoire.

    Deuxième contrainte : on donnera aux fichiers des noms suivant une syntaxe commune, afin de s'y retrouver à l'aide de la présentation des fichiers selon l'ordre lexicographique. On fera appel à l'écriture condensée et à la numération monoalpha-multinumérique.

    Le nom commence par une racine de 2 ou 3 caractères qui identifient la base d'informations (par exemple RT pour Rastell Toull).
    Un séparateur (_ le blanc souligné)

    Une identification de la branche :
       On pourra identifier chaque branche par une lettre (P = personne, E = espèce ...), de même pour les sous-branches ...., ce qui suppose qu'à chaque niveau il y au maximun 26 branches ...
       Une seconde possibilité consiste à mettre les fichiers dans un ordre arbitraire, par exemple chronologique, et à les adresser par des tables intermédiaires.

    On utilisera la compatiblité entre la numération
monoalpha-multinumérique et la concaténation. Par exemple, on associera  à un item le numéro RT_I_C128, et on déclinera les noms de fichiers
   
      
RT_I_C128A1 pour le fichier HTML, éventuellement suivi d'un séparateur et d'un identificateur en écriture condensée
       RT_I_C128A2 pour une première image
       RT_I_C128A3 pour un fichier son
       RT_I_C128A4 pour une seconde image
       ....
       RT_I_C128A9 pour le fichier annexe ...
       RT_I_C128B10 pour le fichier annexe suivant ...

    Avec un répertoire ainsi organisé, l'ordre lexicographique range tous les fichiers dans un ordre naturel, et il est beaucoup plus facile de s'y retrouver ...

Les liens hypertextes

    Pour les liens hypertextes, on utilisera une ligne de tableau qui s'autoréférencera dans le fichier d'origine et qu'on recopiera dans tous les fichiers qui le référenceront.

    On prendra soin de croiser les lien hypertextes.

Sources

http://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique

La CNIL
http://www.cnil.fr/index.php
http://www.cnil.fr/en-savoir-plus/deliberations/dispenses-de-declaration/

Liens internes

Autolien
Numéro
Article
Auteur
RubriqueSous-rubrique Nature
C128
Les bases d'informations : le projet Miscellanées Jacques-Deric Rouault
B42 Informatique
Article original

Cette page utilise les articles
Numéro
Article
Auteur
RubriqueSous-rubrique Nature
C104
La numération monoalpha-multinumérique
Jacques-Deric RouaultB41 Mathématiques
Numération
Article original
C124
L'écriture condensée
Jacques-Deric RouaultB30 La langue française
Article original

Articles utilisant cette page

Articles connexes
Page d'accueil
Table thématique
Table chronologique
Administrateur du site / Contact