-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Validation du lecteur : liste de documents à tester #23
Comments
!! Attention. On ne concatène pas les FORM des morphèmes pour créer des mots juste quand il n'y a pas de FORM au niveau du mot !! La règle est d'afficher au contraire ce qui est le plus détaillé :
Voilà, c'est ce qui est appliqué en ce moment. |
Donc si on a les FORM au niveau du mot et au niveau des morphèmes on n'affiche pas les FORM au niveau du mot ? Ca paraît dommage Si les déposants fournissent FORM et traduction (TRANSL) aux deux niveaux, c'est parce que l'info n'est pas un simple 'doublon'. |
C'est pour ça que je cherche un texte qui possède les 2. Mais rien n'empêche de tout afficher, au contraire ! J'ai juste indiqué comment c'était fait jusqu'ici |
Il faut donc, dans un scénario comme celui-ci (où il y a des gloses au niveau du W et du M), dans les options d'affichage, indiquer "Words" et aussi "Morphemes".
Pour rappel : identifiants : |
@m8nli9ht ticket à fermer, et info à déplacer dans la doc du lecteur Eastling ? |
The couple and the bear (langue : hayu)
oai:crdo.vjf.cnrs.fr:cocoon-b780e400-fff4-3c5c-9f42-d21b674a5060
En l'absence de
<FORM>
au niveau du mot (<W>
), il faut concaténer les morphèmes contenus au sein d'un<W>
.Pratique "ancienne" (v1) : mettre un tiret entre les divers morphèmes d'un mot.
(Un deuxième exemple : cocoon-33ecd2ad-12cc-30df-97c2-58f5f93023ec )
Une complication, c'est qu'il est possible que des morphèmes (
M
) comportent, dans leur forme (<FORM>
), un tiret ou un signe égal=
. Ce symbole indique leur statut (affixe ou clitique) et fait partie de la forme du mot. Si on ajoute des tirets entre les morphèmes pour en faire des mots, ça peut faire des doublons.Il faudrait donc ajouter du code pour dire que si un morphème a déjà un tiret ou un signe égal, on n'ajoute pas de tiret supplémentaire quand on 'concatène'. @sguillaume peux-tu confirmer que ça conviendrait ainsi ?
https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-2b11e515-358b-3c21-8fa5-4ad299b6a613&idref=cocoon-bae938b3-ed5b-361c-b33d-c441c0612187
https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-2b11e515-358b-3c21-8fa5-4ad299b6a613&idref=cocoon-33ecd2ad-12cc-30df-97c2-58f5f93023ec
et, pour info (plutôt à gérer 'en interne' par l'équipe Pangloss pour voir dans quelle direction aller) :
Un document vidéo dans lequel des sous-titres ont été intégrés 'en dur' :
https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-c70f0d6c-309a-3cf1-902c-37cc64a10b13&idref=cocoon-e7529cd0-d1a5-3e57-b2e0-3ac6448a13e0
Un document qui ait une annotation au niveau des mots et aussi au niveau des morphèmes :
oai_primary=cocoon-d1b7aaca-f105-3917-9bb3-36365afe85f1&oai_secondary=cocoon-c0475f29-6935-3a53-8da5-6ff8b012ef7c
Les mots sont glosés. Les morphèmes sont glosés par endroits. Par exemple : dans la phrase 174 : le premier mot est décomposé en 2 morphèmes. Il y a une forme pour le mot, et une pour chacun des morphèmes.
Il serait souhaitable d'afficher ces niveaux séparément : un niveau mot, un niveau morphème.
Un document qui a des transcriptions (
<FORM>
) sans attribut : ici<FORM>ɳɖɯ˧</FORM>
Un document qui a des transcriptions (
<FORM>
) avec attribut : iciThe text was updated successfully, but these errors were encountered: