User Tools

Site Tools


corpusfr

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
corpusfr [2021/04/12 17:30]
annapineda
corpusfr [2021/06/16 15:43] (current)
annapineda
Line 1: Line 1:
 ===== Le corpus CoRaLHis ===== ===== Le corpus CoRaLHis =====
  
-Parmi tous les textes que les différents corpus mettront à la disposition de CoRaLHis, une sélection sera faite, composée de 100 000 //tokens// par demi-siècle et par genre (voir ci-dessous). Le choix du nombre de tokens par cellule a été fait après concertation avec des spécialistes de la linguistique de corpus et de la représentativité.+Parmi tous les textes que les différents corpus mettront à la disposition de CoRaLHis, une sélection sera faite, composée de 100 000 //tokens// par demi-siècle et par genre (voir ci-dessous). Le choix du nombre de //tokens// par cellule a été fait après concertation avec des spécialistes de la linguistique de corpus et de la représentativité.
  
  
Line 23: Line 23:
 ==== LANGUES ==== ==== LANGUES ====
  
-Lors de la première étape du projet, la sélection de 100.000 tokens par demi-siècle et par genre sera faite pour un total de 7 langues:+Lors de la première étape du projet, la sélection de 100.000 ​//tokens// par demi-siècle et par genre sera faite pour un total de 7 langues:
  
   - Franáis   - Franáis
Line 36: Line 36:
   - (Rhéto-Roman)   - (Rhéto-Roman)
  
-Ainsi, 7 langues x 8 genres x 12 périodes (demi-siècles),​ donne un total de 672 échantillons de langue / genre / période; ou 840 échantillons de langue / genre / période si les subdivisions de genre sont prises en compte. Si nous multiplions ce nombre pour les 100 000 tokens mentionnés par cellule, cela nous donne un corpus avec 67 200 000 ou 84 000 000 de tokens au total.+Ainsi, 7 langues x 8 genres x 12 périodes (demi-siècles),​ donne un total de 672 échantillons de langue / genre / période; ou 840 échantillons de langue / genre / période si les subdivisions de genre sont prises en compte. Si nous multiplions ce nombre pour les 100 000 //tokens// mentionnés par cellule, cela nous donne un corpus avec 67 200 000 ou 84 000 000 de //tokens// au total.
  
-En somme, pour chacune des langues mentionnées (** français, catalan, espagnol, portugais, occitan, gascon **), nous prévoyons d'​avoir ​9600000 ​tokens (8 genres x 12 périodes de temps x 100000 ​tokens pour chaque cellule). Il faut tenir compte du fait que certains genres, comme le théâtre, sont limités en soi à une période donnée, notamment les derniers siècles dans ce cas.+En somme, pour chacune des langues mentionnées (** français, catalan, espagnol, portugais, occitan, gascon **), nous prévoyons d'​avoir ​9 600 000 //tokens// (8 genres x 12 périodes de temps x 100 000 //tokens// pour chaque cellule). Il faut tenir compte du fait que certains genres, comme le théâtre, sont limités en soi à une période donnée, notamment les derniers siècles dans ce cas.
  
 D'un autre côté, nous prévoyons bien sûr que, pour certaines langues, il y aura des cellules qui ne pourront pas être entièrement remplies, du moins dès le début. À cet égard, il est important de souligner que le projet est conçu comme une initiative croissante et continue, qui sera élargie au fil du temps et de nouvelles collaborations s'​établiront. D'un autre côté, nous prévoyons bien sûr que, pour certaines langues, il y aura des cellules qui ne pourront pas être entièrement remplies, du moins dès le début. À cet égard, il est important de souligner que le projet est conçu comme une initiative croissante et continue, qui sera élargie au fil du temps et de nouvelles collaborations s'​établiront.
  
-Enfin, il est à noter qu'en plus des 8 langues majeures mentionnées,​ le corpus envisage également d'​inclure des textes de ** sarde **, ** francoprovençal ** et ** rhéto-roman **. Pour ces langues, la rareté des ressources disponibles ne permet pas d'​envisager de rassembler des textes pour tous les genres et périodes de temps, du moins pas de manière significative. Bien que cela ne soit pas possible et donc qu'un travail comparatif incluant ces langues soit affecté, nous pensons qu'​elles doivent être représentées dans le corpus autant que possible, nous avons donc opté pour la représentation des genres / périodes disponibles. Par exemple, pour le sarde, nous avons à notre disposition un nombre notable de textes juridiques des XIIIe et XIVe siècles.+Enfin, il est à noter qu'en plus des 8 langues majeures mentionnées,​ le corpus envisage également d'​inclure des textes de ** sarde **, ** francoprovençal ** et ** rhéto-roman **. Pour ces langues, la rareté des ressources disponibles ne permet pas d'​envisager de rassembler des textes pour tous les genres et périodes de temps, du moins pas de manière significative. Bien que cela ne soit pas possible et donc qu'un travail comparatif incluant ces langues soit affecté, nous pensons qu'​elles doivent être représentées dans le corpus autant que possible, nous avons donc opté pour la représentation des genres / périodes disponibles. Par exemple, pour le sarde, nous avons spécialement ​à notre disposition un nombre notable de textes juridiques des XIIIe et XIVe siècles, alors que le nombre de textes pour les genres et les siècles restants est actuellement augmenté.
  
  
 ==== LISTE DE TEXTES ==== ==== LISTE DE TEXTES ====
  
-  - [[https://​www.dropbox.com/​s/​rkfgoypndlngub7/​FR%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour le français]]. +  - [[https://​www.dropbox.com/​s/​rkfgoypndlngub7/​FR%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour le français ​version Word]] [[https://​www.dropbox.com/​s/​h49ygvpyeeidx1i/​DATABASE%20-%20FRENCH%20-%20selection_2020.06.15--.pdf?​dl=0| Version Excel]] 
-  - Proposition pour l'​italien [pas encore disponible] +  - Proposition pour l'​italien [pas encore disponible]  
-  - [[https://​www.dropbox.com/​s/​ktnwzy47iu8wpsl/​CAT%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour le catalan]] +  - [[https://​www.dropbox.com/​s/​ktnwzy47iu8wpsl/​CAT%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour le catalan ​version Word]] [[https://​www.dropbox.com/​s/​k0fifehag1ptifj/DATABASE%20-%20CATALAN%20-%20selection_2020.06.10..pdf?​dl=0 ​| Version Excel]] 
-  - [[https://​www.dropbox.com/​s/​tul94eslfnkson0/SP%20selection%20of%20texts%20WEB.pdf?dl=0| Proposition pour l'​espagnol]] +  - [[https://​www.dropbox.com/​scl/​fi/​6nkvr5txatgvr3av6h7gb/​SP-selection-of-texts-WEB.docx?​dl=0&​rlkey=79pg4vag3w3rl0vmrjzpv7k3q| Proposition pour l'​espagnol ​version Word]] [[https://​www.dropbox.com/​s/​jbc7dzsmndwaipg/DATABASE%20-%20SPANISH%20-%20selection_2020.07.09-.pdf?​dl=0 ​| Version Excel]] 
-  - [[https://​www.dropbox.com/​s/​ljg19wxx8ly2ec2/PORT%20selection%20of%20texts%20WEB.pdf?dl=0| Proposition pour le portugais]] +  - [[https://​www.dropbox.com/​scl/​fi/​we5qvk2fgprwbzx38nyso/​PORT-selection-of-texts-WEB.docx?​dl=0&​rlkey=b6rn7ksdfh87uikrtkbtmd917| Proposition pour le portugais ​version Word]] [[https://​www.dropbox.com/​s/​a7gkwkhi84stmc2/​DATABASE%20-%20PORTUGUESE%20-%20%20selection_2021.05.pdf?​dl=0| Version Excel]] 
-  - [[https://​www.dropbox.com/​s/​vdqzwpre95ojj93/​OC%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour l'​occitan]]+  - [[https://​www.dropbox.com/​s/​vdqzwpre95ojj93/​OC%20selection%20of%20texts%20WEB.pdf?​dl=0| Proposition pour l'​occitan ​version Word]] [[https://​www.dropbox.com/​s/​7les6yd27lay4mi/​DATABASE%20-%20OCCITAN%20-%20selection_2020.07.09..pdf?​dl=0 | Version Excel]]
   - Proposition pour le gascon [pas encore disponible]   - Proposition pour le gascon [pas encore disponible]
-  - [[https://​www.dropbox.com/​s/oijkemzf3oltclp/SARD%20selection%20of%20texts%20WEB.pdf?dl=0| Proposition pour le sarde]] +  - [[https://​www.dropbox.com/​scl/fi/​m63gf5bh8vugsqusi8wms/SARD-selection-of-texts-WEB.docx?dl=0&​rlkey=wcmpieksj6n3agcpqvp6q82pj| Proposition pour le sarde version Word]] [[https://​www.dropbox.com/​s/​dj87k7o718avnsa/​DATABASE%20-%20SARDINIAN.pdf?​dl=0 | Version Excel]] 
-  - [[https://​www.dropbox.com/​s/​rl3li1fdifczbox/FR-PROV%20selection%20of%20texts%20WEB.pdf?dl=0| Proposition pour le francoprovençal]]+  - [[https://​www.dropbox.com/​s/​3yloh1jhst6c5oq/DATABASE%20-%20FRANCOPROVEN%C3%87AL-d%C3%A9f.pdf?dl=0| Proposition pour le francoprovençal ​version Word]] [[https://​www.dropbox.com/​s/​t3amwpfew6su1n8/​DATABASE%20-%20SARDINIAN-def..pdf?​dl=0 | Version Excel]]
   - Proposition pour le rhéto-roman [pas encore disponible]   - Proposition pour le rhéto-roman [pas encore disponible]
  
corpusfr.1618248613.txt.gz · Last modified: 2021/04/12 17:30 by annapineda