
1. Vidoire Julie
2. Etat des données avant la création
2.1. 60% des données utilisées étaient déjà numérisées
2.1.1. Sur CD-ROM
2.1.2. Chez les éditeurs
2.2. 40% des données sont à numériser
3. Pré édition
3.1. A partir d'analise d'images
3.2. les étapes
3.2.1. sélection des documents
3.2.2. contrôle de la qualité des textes
3.2.2.1. impossibilité de transcrire certains textes
3.2.3. mise en évidence de parties difficiles
3.2.3.1. traitement ultérieur
4. création de fichiers au format UMTF-8 avec des notes au format XML
4.1. Validé contre une DTD (Document Type Definition)
4.1.1. Varie selon les types de textes
5. Les techniques
5.1. Par reconnaissance de caractère optiques
5.1.1. technique préférée
5.1.2. Taux de reconnaissance acceptable : 95-99%
5.1.2.1. 99% : 100 erreurs tous les 10000 caractères
5.1.3. chaque mot = mot clé potentiel
5.1.3.1. taux d'erreur doit être trè faible
5.1.4. correction
5.1.4.1. dépend de la qualité de l'input
5.1.4.1.1. peut couter beaucoup de temps
5.2. Transcription manuelle
5.2.1. plus couteuse
5.2.2. Beaucoup moins d'erreurs
5.2.2.1. 5 tous les 10000 caractères
5.2.3. Annotation possible en même temps que la numérisation
5.2.3.1. conversion XML quasi automatique
5.2.3.1.1. sous produit de transcription manuelle
5.2.4. convertion en XML