STIH

Le corpus CoRaLHis

Parmi tous les textes que les différents corpus mettront à la disposition de CoRaLHis, une sélection sera faite, composée de 100 000 tokens par demi-siècle et par genre (voir ci-dessous). Le choix du nombre de tokens par cellule a été fait après concertation avec des spécialistes de la linguistique de corpus et de la représentativité.

GENRES

Les textes sont répartis dans les genres suivants:

Textes juridiques / juridiques et administratifs
1. Textes expositoires, descriptifs
2. Textes procéduraux (lois)
Textes religieux (livres de psaumes, hagiographie, sermons)
Historiographie, chroniques
Littérature didactique et scientifique (comme les bestiaires, autres traités, y compris les travaux lexicographiques et grammaticaux)
1. Textes expositoires, descriptifs
2. Textes procéduraux (recettes, fauconnerie, etc.)
Textes narratifs littéraires et fiction (y compris la littérature épique)
Poésie, textes lyriques
Théâtre
Documents de la vie quotidienne (prose personnelle: lettres, mémoires, etc.)

LANGUES

Lors de la première étape du projet, la sélection de 100.000 tokens par demi-siècle et par genre sera faite pour un total de 7 langues:

Franáis
Italien
Catalan
Espagnol
Portugais
Occitan
Gascon
(Sarde)
(Francoprovençal)
(Rhéto-Roman)

Ainsi, 7 langues x 8 genres x 12 périodes (demi-siècles), donne un total de 672 échantillons de langue / genre / période; ou 840 échantillons de langue / genre / période si les subdivisions de genre sont prises en compte. Si nous multiplions ce nombre pour les 100 000 tokens mentionnés par cellule, cela nous donne un corpus avec 67 200 000 ou 84 000 000 de tokens au total.

En somme, pour chacune des langues mentionnées ( français, catalan, espagnol, portugais, occitan, gascon ), nous prévoyons d'avoir 9 600 000 tokens (8 genres x 12 périodes de temps x 100 000 tokens pour chaque cellule). Il faut tenir compte du fait que certains genres, comme le théâtre, sont limités en soi à une période donnée, notamment les derniers siècles dans ce cas.

D'un autre côté, nous prévoyons bien sûr que, pour certaines langues, il y aura des cellules qui ne pourront pas être entièrement remplies, du moins dès le début. À cet égard, il est important de souligner que le projet est conçu comme une initiative croissante et continue, qui sera élargie au fil du temps et de nouvelles collaborations s'établiront.

Enfin, il est à noter qu'en plus des 8 langues majeures mentionnées, le corpus envisage également d'inclure des textes de sarde , francoprovençal et rhéto-roman . Pour ces langues, la rareté des ressources disponibles ne permet pas d'envisager de rassembler des textes pour tous les genres et périodes de temps, du moins pas de manière significative. Bien que cela ne soit pas possible et donc qu'un travail comparatif incluant ces langues soit affecté, nous pensons qu'elles doivent être représentées dans le corpus autant que possible, nous avons donc opté pour la représentation des genres / périodes disponibles. Par exemple, pour le sarde, nous avons spécialement à notre disposition un nombre notable de textes juridiques des XIIIe et XIVe siècles, alors que le nombre de textes pour les genres et les siècles restants est actuellement augmenté.

LISTE DE TEXTES

Proposition pour le français version Word Version Excel
Proposition pour l'italien [pas encore disponible]
Proposition pour le catalan version Word Version Excel
Proposition pour l'espagnol version Word Version Excel
Proposition pour le portugais version Word Version Excel
Proposition pour l'occitan version Word Version Excel
Proposition pour le gascon [pas encore disponible]
Proposition pour le sarde version Word Version Excel
Proposition pour le francoprovençal version Word Version Excel
Proposition pour le rhéto-roman [pas encore disponible]

STIH

User Tools

Site Tools

Table of Contents

Le corpus CoRaLHis

GENRES

LANGUES

LISTE DE TEXTES

Page Tools