Problèmes dans l'élaboration de corpus à base de dictionnaires

Get Started. It's Free
or sign up with your email address
Rocket clouds
Problèmes dans l'élaboration de corpus à base de dictionnaires by Mind Map: Problèmes dans l'élaboration de corpus à base de dictionnaires

1. Introduction

1.1. Corpus = collection de données linguistiques ou extralinguistiques pour servir d'échantillons d'emplois d'une langue

1.2. Objectif corpus : être un échantillon représentatif de l'usage de la langue

1.3. 2 présupposés

1.3.1. - Si une expression fait partie de la langue elle doit apparaître dans le corpus

1.3.2. - Fréquence d'une expression dans le corpus = reflet de sa fréquence dans la langue

2. 1) Corpus et dictionnaires : une comparaison quantitative

2.1. Comparaison entre :

2.1.1. Taille corpus : déterminée par le nombre de tokens et types

2.1.2. Taille dico : déterminée par nombre d'entrées annoncées

2.2. Comptage informatique des "types" et "tokens"

2.3. Corpus de 1ère génération trop petits pour être comparés avec dictionnaires monolingues

2.3.1. Rapports s'inversent en fonction des dictionnaires et corpus

2.4. Pour faciliter la comparaison entre corpus et dictionnaire : utilisation de "lexèmes" et "mot-forme"

2.5. Problèmes

2.5.1. comment comparer nombre entrées et nombre "types"

2.5.2. mots composés transparents

2.5.3. rareté des occurrences

2.6. Grands corpus révèlent lacunes lexicographiques dans les dictionnaires

3. 2) Corpus équilibrés

3.1. Mots simples ou composés

3.1.1. dictionnaires monolingues contiennent des entrées non présentes dans les corpus

3.1.1.1. pas de concordance avec exemples des lexicographes

3.1.2. dans les dictionnaires : acceptions non attestées dans les corpus

3.1.3. manque d'attestation dans le corpus des mots composés

3.2. Expressions figées

3.2.1. But du travail sur DWDS-E

3.2.1.1. décrire nombre d’occurrences des expressions figées pour déduire taille minimale d'un corpus pour constituer une base d’études solide sur expressions figées

3.2.2. méthode d'échantillonnage

3.2.3. croissance régulière

3.2.3.1. échantillonnage correct

3.3. corpus équilibrés trop petits pour servir de base à l’élaboration d’un grand dictionnaire monolingue

4. 3) Corpus opportunistes et très grande collection de textes

5. 4) Les corpus : une question de taille

6. Lola Saulin