<div dir="ltr">LANGUAGE SUBTAG REGISTRATION FORM<br><br><div><div><div>1. Name of requester: Sascha Brawer<br>2. E-mail address of requester: <a href="mailto:sascha@brawer.ch">sascha@brawer.ch</a><br>3. Record Requested:<br><br>Type: variant<br>Subtag: marked<br>Description: Used to designate text with markers for <span style="font-size:12.8px">tones, gemination, vowel length,</span></div><div><span style="font-size:12.8px">    vowel quality, etc. </span><span style="font-size:12.8px">in languages where such marks are not part of the regular spelling</span></div><div><div style="font-size:12.8px"><br></div><br>4. Intended meaning of the subtag:<br><br>The presence of this subtag indicates that text has been marked with tones,</div><div><div><span style="font-size:12.8px">vowel length, vowel quality, etc. </span><span style="font-size:12.8px">in languages where such marks are not part</span></div><div><span style="font-size:12.8px">of the regular spelling. Exampl</span>es include: Arabic Tashkil and Hebrew Niqqud</div><div>diacritics to indicate short vowels; Hebrew cantillation marks; tone diacritics in</div></div><div>Cherokee and Lingala; or gemination marks in Ethiopic languages.</div><div><br></div><div>Such markers are not written in regular text, but can be seen in children’s</div><div>books, dictionaries, language learning material, or specialized language corpora</div><div>where preserving the pronunciation is important.</div><div><br></div><div><br>5. Reference to published description of the language (book or article):</div><div><br></div><div><a href="https://en.wikipedia.org/wiki/Arabic_diacritics">https://en.wikipedia.org/wiki/Arabic_diacritics</a></div><div><a href="https://en.wikipedia.org/wiki/Niqqud">https://en.wikipedia.org/wiki/Niqqud</a></div><div><br></div><div><br><span style="font-size:12.8px">6. Any other relevant information:</span></div></div><div><br></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">2016-07-06 13:07 GMT+02:00 Martin J. Dürst <span dir="ltr"><<a href="mailto:duerst@it.aoyama.ac.jp" target="_blank">duerst@it.aoyama.ac.jp</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hello Sascha,<br>
<br>
Your idea looks good to me, because it indeed covers an actual need. My suggestion would be to prepare a registration template somewhat soonish.<br>
<br>
Regards,   Martin.<div><div class="h5"><br>
<br>
On 2016/07/06 19:22, Sascha Brawer wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
What would you think of registering an IETF language variant subtag to<br>
denote text with marks for tones, gemination, vowel length, vowel quality,<br>
etc. in languages where such marks are not part of the regular spelling?<br>
<br>
For example, Arabic and Hebrew usually do not write short vowels. However,<br>
optional marks can be used to indicate the vowels. Without a variant<br>
subtag, we cannot give a BCP47 language code to corpora of text written in<br>
“Arabic with vowel markers”.<br>
<a href="https://en.wikipedia.org/wiki/Arabic_diacritics#Tashkil_.28marks_used_as_phonetic_guides.29" rel="noreferrer" target="_blank">https://en.wikipedia.org/wiki/Arabic_diacritics#Tashkil_.28marks_used_as_phonetic_guides.29</a><br>
<a href="https://en.wikipedia.org/wiki/Hebrew_diacritics" rel="noreferrer" target="_blank">https://en.wikipedia.org/wiki/Hebrew_diacritics</a><br>
<br>
Another example is Lingala, where optional marks are used to indicate<br>
tones. In the Unicode UDHR project, we have Lingala text once with and once<br>
without tones. However, currently we cannot express this distinction with<br>
BCP47 language tags:<br>
<a href="http://www.unicode.org/udhr/d/udhr_lin.html" rel="noreferrer" target="_blank">http://www.unicode.org/udhr/d/udhr_lin.html</a><br>
<a href="http://www.unicode.org/udhr/d/udhr_lin_tones.html" rel="noreferrer" target="_blank">http://www.unicode.org/udhr/d/udhr_lin_tones.html</a><br>
(Apart from tones, the two texts should be identical. Currently they<br>
aren’t, but that’s an unrelated problem).<br>
<br>
Another example is Cherokee, where optional marks can be used to indicate<br>
tones.<br>
<br>
Another example is Amharic (and all other Ethiopic languages), where<br>
optional marks are used to indicate syllables with geminated (=long)<br>
consonants, and/or long vowels.<br>
<br>
In all these examples, the markers are usually not written in regular text.<br>
But in children’s books, teaching material for language learners, religious<br>
texts, etc., the markers would be written to indicate the otherwise<br>
ambiguous pronunciation. Also, there’s specialized applications (eg.<br>
corpora for speech applications) that explicitly collect texts with such<br>
markers attached. To identify marked text, it would be useful to have a<br>
variant subtag.<br>
<br>
An alternative to registering a general "marked" subtag might be different<br>
subtags for "vowelmarked", "geminationmarked", "tonemarked", etc. Seems a<br>
bit complicated, and those tags would have to be shortened to fit into the<br>
length requirements.<br>
<br>
What do you think?<br>
<br>
— Sascha<br>
<br>
<br>
<br></div></div>
_______________________________________________<br>
Ietf-languages mailing list<br>
<a href="mailto:Ietf-languages@alvestrand.no" target="_blank">Ietf-languages@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/ietf-languages" rel="noreferrer" target="_blank">http://www.alvestrand.no/mailman/listinfo/ietf-languages</a><br>
<br>
</blockquote>
</blockquote></div><br></div>