Validation du lecteur : liste de documents à tester #23

alexis-michaud · 2020-11-12T10:08:47Z

Un document avec niveau M (morphèmes) :

The couple and the bear (langue : hayu)
oai:crdo.vjf.cnrs.fr:cocoon-b780e400-fff4-3c5c-9f42-d21b674a5060

En l'absence de <FORM> au niveau du mot (<W>), il faut concaténer les morphèmes contenus au sein d'un <W>.
Pratique "ancienne" (v1) : mettre un tiret entre les divers morphèmes d'un mot.

(Un deuxième exemple : cocoon-33ecd2ad-12cc-30df-97c2-58f5f93023ec )

Une complication, c'est qu'il est possible que des morphèmes (M) comportent, dans leur forme (<FORM>), un tiret ou un signe égal =. Ce symbole indique leur statut (affixe ou clitique) et fait partie de la forme du mot. Si on ajoute des tirets entre les morphèmes pour en faire des mots, ça peut faire des doublons.
Il faudrait donc ajouter du code pour dire que si un morphème a déjà un tiret ou un signe égal, on n'ajoute pas de tiret supplémentaire quand on 'concatène'. @sguillaume peux-tu confirmer que ça conviendrait ainsi ?

Un document avec deux fichiers XML : "La chair de poisson rend intelligent"

https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-2b11e515-358b-3c21-8fa5-4ad299b6a613&idref=cocoon-bae938b3-ed5b-361c-b33d-c441c0612187
https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-2b11e515-358b-3c21-8fa5-4ad299b6a613&idref=cocoon-33ecd2ad-12cc-30df-97c2-58f5f93023ec

Un document avec des emprunts codés comme tels (voir balise FOREIGN à traiter Pangloss_website#204 )

et, pour info (plutôt à gérer 'en interne' par l'équipe Pangloss pour voir dans quelle direction aller) :

Un document vidéo dans lequel des sous-titres ont été intégrés 'en dur' :
https://pangloss.cnrs.fr/corpus/show_text.php?id=cocoon-c70f0d6c-309a-3cf1-902c-37cc64a10b13&idref=cocoon-e7529cd0-d1a5-3e57-b2e0-3ac6448a13e0
Un document qui ait une annotation au niveau des mots et aussi au niveau des morphèmes :

oai_primary=cocoon-d1b7aaca-f105-3917-9bb3-36365afe85f1&oai_secondary=cocoon-c0475f29-6935-3a53-8da5-6ff8b012ef7c

Les mots sont glosés. Les morphèmes sont glosés par endroits. Par exemple : dans la phrase 174 : le premier mot est décomposé en 2 morphèmes. Il y a une forme pour le mot, et une pour chacun des morphèmes.

Il serait souhaitable d'afficher ces niveaux séparément : un niveau mot, un niveau morphème.

		<W>
			<FORM>njɤ˧=ɻ̍˩</FORM>
			<TRANSL xml:lang="fr">°1-coll</TRANSL>
			<TRANSL xml:lang="en"></TRANSL>
			<M>
				<FORM>njɤ˩</FORM>
				<TRANSL xml:lang="fr">°1sg</TRANSL>
			<TRANSL xml:lang="en"></TRANSL>
			</M>
			<M>
				<FORM>=ɻ̍˩</FORM>
				<TRANSL xml:lang="fr">°associatif</TRANSL>
			<TRANSL xml:lang="en"></TRANSL>
			</M>
			</W>

Un document qui a des transcriptions (<FORM>) sans attribut : ici
<FORM>ɳɖɯ˧</FORM>
Un document qui a des transcriptions (<FORM>) avec attribut : ici

<FORM kindOf="phono">ə˧ʝi˧-ʂɯ˥ʝi˩ ◊ -dʑo˩ … ◊ ə˩-gi˩!</FORM>
<FORM kindOf="ortho">Eyishei jjo … aeggi! …</FORM>

The text was updated successfully, but these errors were encountered:

sguillaume · 2020-11-12T13:40:36Z

!! Attention. On ne concatène pas les FORM des morphèmes pour créer des mots juste quand il n'y a pas de FORM au niveau du mot !!

La règle est d'afficher au contraire ce qui est le plus détaillé :

Si on a les FORM au niveau du mot et au niveau des morphèmes alors on affiche les morphèmes (que l'on concatène en mots avec un - entre chaque morphème d'un mot)
Si l'on a pas de morphèmes, alors on affiche les mots

Voilà, c'est ce qui est appliqué en ce moment.

alexis-michaud · 2020-11-12T13:44:19Z

Donc si on a les FORM au niveau du mot et au niveau des morphèmes on n'affiche pas les FORM au niveau du mot ?

Ca paraît dommage

Si les déposants fournissent FORM et traduction (TRANSL) aux deux niveaux, c'est parce que l'info n'est pas un simple 'doublon'.

sguillaume · 2020-11-12T13:47:59Z

C'est pour ça que je cherche un texte qui possède les 2.
Mais y en a peu et je n'arrive pas à mettre la main dessus.

Mais rien n'empêche de tout afficher, au contraire !
Je suis pour d'afficher le plus (en ne cochant pas tout par défaut par contre)

J'ai juste indiqué comment c'était fait jusqu'ici

alexis-michaud · 2020-11-18T10:58:24Z

Il faut donc, dans un scénario comme celui-ci (où il y a des gloses au niveau du W et du M), dans les options d'affichage, indiquer "Words" et aussi "Morphemes".
Affichage :

la phrase entière en transcription
les mots en transcription, organisés en mode 'tableau' (bon alignement horizontal)
la glose (traduction) des mots dans les langues cochées
les morphèmes en transcription, 'concaténés' en ajoutant un tiret (sauf si séparateur déjà présent : - ou =)
la glose (traduction) des morphèmes dans les langues cochées

Pour rappel : identifiants :
corpus/show?mode=pro&oai_primary=cocoon-d1b7aaca-f105-3917-9bb3-36365afe85f1&oai_secondary=cocoon-c0475f29-6935-3a53-8da5-6ff8b012ef7c&optionWords=true&optionTranscriptions=&optionTranslations=%2Bfr%2Ben%2Bzh&optionGlosses=%2Bfr%2Ben&optionNotes=&optionWholeTranscriptions=false&optionWholeTranslations=

alexis-michaud · 2021-01-31T21:03:02Z

@m8nli9ht ticket à fermer, et info à déplacer dans la doc du lecteur Eastling ?
Une liste de documents (utiliser le DOI comme identifiant, ça pourrait être bien) qui couvre l'essentiel de la typologie des documents. Utile pour les collègues qui voudraient tester / reprendre le code pour d'autres projets : moyen de voir ce que le lecteur donne sur des documents divers.

alexis-michaud mentioned this issue Nov 20, 2020

Gérer les traductions de libellés pour les options d'affichage et autres (no annotation, ...) #24

Closed

alexis-michaud closed this as completed Jan 31, 2021

alexis-michaud reopened this Jan 31, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Validation du lecteur : liste de documents à tester #23

Validation du lecteur : liste de documents à tester #23

alexis-michaud commented Nov 12, 2020 •

edited

Loading

sguillaume commented Nov 12, 2020

alexis-michaud commented Nov 12, 2020

sguillaume commented Nov 12, 2020

alexis-michaud commented Nov 18, 2020

alexis-michaud commented Jan 31, 2021

Validation du lecteur : liste de documents à tester #23

Validation du lecteur : liste de documents à tester #23

Comments

alexis-michaud commented Nov 12, 2020 • edited Loading

sguillaume commented Nov 12, 2020

alexis-michaud commented Nov 12, 2020

sguillaume commented Nov 12, 2020

alexis-michaud commented Nov 18, 2020

alexis-michaud commented Jan 31, 2021

alexis-michaud commented Nov 12, 2020 •

edited

Loading