User Tools

Site Tools


corpusfr

This is an old revision of the document!


Le corpus CoRaLHis

Parmi tous les textes que les différents corpus mettront à la disposition de CoRaLHis, une sélection sera faite, composée de 100 000 tokens par demi-siècle et par genre (voir ci-dessous). Le choix du nombre de jetons par cellule a été fait après concertation avec des spécialistes de la linguistique de corpus et de la représentativité.

GENRES

Les textes sont répartis dans les genres suivants:

  1. Textes juridiques / juridiques et administratifs
    1. Textes expositoires, descriptifs
    2. Textes procéduraux (lois)
  2. Textes religieux (livres de psaumes, hagiographie, sermons)
  3. Historiographie, chroniques
  4. Littérature didactique et scientifique (comme les bestiaires, autres traités, y compris les travaux lexicographiques et grammaticaux)
    1. Textes expositoires, descriptifs
    2. Textes procéduraux (recettes, fauconnerie, etc.)
  5. Textes narratifs littéraires et fiction (y compris la littérature épique)
  6. Poésie, textes lyriques
  7. Théâtre
  8. Documents de la vie quotidienne (prose personnelle: lettres, mémoires, etc.)

LANGUES

Lors de la première étape du projet, la sélection de 100.000 jetons par demi-siècle et par genre sera faite pour un total de 8 langues:

  1. Franáis
  2. Italien
  3. Catalan
  4. Espagnol
  5. Portugais
  6. Occitan
  7. Gascon
  8. (Sarde)
  9. (Francoprovençal)
  10. (Rhéto-Roman)

Ainsi, 8 langues x 8 genres x 12 périodes (demi-siècles), donne un total de 768 échantillons de langue / genre / période; ou 960 échantillons de langue / genre / période si les subdivisions de genre sont prises en compte. Si nous multiplions ce nombre pour les 100 000 jetons mentionnés par cellule, cela nous donne un corpus avec 76 800 000 ou 96 000 000 de jetons au total.

En somme, pour chacune des langues mentionnées ( français, catalan, espagnol, portugais, occitan, gascon ), nous prévoyons d'avoir 9600000 jetons (8 genres x 12 périodes de temps x 100000 jetons pour chaque cellule). Il faut tenir compte du fait que certains genres, comme le théâtre, sont limités en soi à une période donnée, notamment les derniers siècles dans ce cas.

D'un autre côté, nous prévoyons bien sûr que, pour certaines langues, il y aura des cellules qui ne pourront pas être entièrement remplies, du moins dès le début. À cet égard, il est important de souligner que le projet est conçu comme une initiative croissante et continue, qui sera élargie au fil du temps et de nouvelles collaborations s'établiront.

Enfin, il est à noter qu'en plus des 8 langues majeures mentionnées, le corpus envisage également d'inclure des textes de sarde , francoprovençal et rhéto-roman . Pour ces langues, la rareté des ressources disponibles ne permet pas d'envisager de rassembler des textes pour tous les genres et périodes de temps, du moins pas de manière significative. Bien que cela ne soit pas possible et donc qu'un travail comparatif incluant ces langues soit affecté, nous pensons qu'elles doivent être représentées dans le corpus autant que possible, nous avons donc opté pour la représentation des genres / périodes disponibles. Par exemple, pour le sarde, nous avons à notre disposition un nombre notable de textes juridiques des XIIIe et XIVe siècles.

LISTE DE TEXTES

  1. Proposition pour l'italien [pas encore disponible]
  2. Proposition pour le gascon [pas encore disponible]
  3. Proposition pour le rhéto-roman [pas encore disponible]
corpusfr.1618221372.txt.gz · Last modified: 2021/04/12 09:56 by annapineda