User Tools

Site Tools


corpusfr

Le corpus CoRaLHis

Parmi tous les textes que les différents corpus mettront à la disposition de CoRaLHis, une sélection sera faite, composée de 100 000 tokens par demi-siècle et par genre (voir ci-dessous). Le choix du nombre de tokens par cellule a été fait après concertation avec des spécialistes de la linguistique de corpus et de la représentativité.

GENRES

Les textes sont répartis dans les genres suivants:

  1. Textes juridiques / juridiques et administratifs
    1. Textes expositoires, descriptifs
    2. Textes procéduraux (lois)
  2. Textes religieux (livres de psaumes, hagiographie, sermons)
  3. Historiographie, chroniques
  4. Littérature didactique et scientifique (comme les bestiaires, autres traités, y compris les travaux lexicographiques et grammaticaux)
    1. Textes expositoires, descriptifs
    2. Textes procéduraux (recettes, fauconnerie, etc.)
  5. Textes narratifs littéraires et fiction (y compris la littérature épique)
  6. Poésie, textes lyriques
  7. Théâtre
  8. Documents de la vie quotidienne (prose personnelle: lettres, mémoires, etc.)

LANGUES

Lors de la première étape du projet, la sélection de 100.000 tokens par demi-siècle et par genre sera faite pour un total de 7 langues:

  1. Franáis
  2. Italien
  3. Catalan
  4. Espagnol
  5. Portugais
  6. Occitan
  7. Gascon
  8. (Sarde)
  9. (Francoprovençal)
  10. (Rhéto-Roman)

Ainsi, 7 langues x 8 genres x 12 périodes (demi-siècles), donne un total de 672 échantillons de langue / genre / période; ou 840 échantillons de langue / genre / période si les subdivisions de genre sont prises en compte. Si nous multiplions ce nombre pour les 100 000 tokens mentionnés par cellule, cela nous donne un corpus avec 67 200 000 ou 84 000 000 de tokens au total.

En somme, pour chacune des langues mentionnées ( français, catalan, espagnol, portugais, occitan, gascon ), nous prévoyons d'avoir 9 600 000 tokens (8 genres x 12 périodes de temps x 100 000 tokens pour chaque cellule). Il faut tenir compte du fait que certains genres, comme le théâtre, sont limités en soi à une période donnée, notamment les derniers siècles dans ce cas.

D'un autre côté, nous prévoyons bien sûr que, pour certaines langues, il y aura des cellules qui ne pourront pas être entièrement remplies, du moins dès le début. À cet égard, il est important de souligner que le projet est conçu comme une initiative croissante et continue, qui sera élargie au fil du temps et de nouvelles collaborations s'établiront.

Enfin, il est à noter qu'en plus des 8 langues majeures mentionnées, le corpus envisage également d'inclure des textes de sarde , francoprovençal et rhéto-roman . Pour ces langues, la rareté des ressources disponibles ne permet pas d'envisager de rassembler des textes pour tous les genres et périodes de temps, du moins pas de manière significative. Bien que cela ne soit pas possible et donc qu'un travail comparatif incluant ces langues soit affecté, nous pensons qu'elles doivent être représentées dans le corpus autant que possible, nous avons donc opté pour la représentation des genres / périodes disponibles. Par exemple, pour le sarde, nous avons spécialement à notre disposition un nombre notable de textes juridiques des XIIIe et XIVe siècles, alors que le nombre de textes pour les genres et les siècles restants est actuellement augmenté.

LISTE DE TEXTES

corpusfr.txt · Last modified: 2021/06/16 15:43 by annapineda