<div dir="ltr"><div>What would you think of registering an IETF language variant subtag to denote text with marks for tones, gemination, vowel length, vowel quality, etc. in languages where such marks are not part of the regular spelling?<br></div><div><br></div><div>For example, Arabic and Hebrew usually do not write short vowels. However, optional marks can be used to indicate the vowels. Without a variant subtag, we cannot give a BCP47 language code to corpora of text written in “Arabic with vowel markers”.<br></div><div><a href="https://en.wikipedia.org/wiki/Arabic_diacritics#Tashkil_.28marks_used_as_phonetic_guides.29">https://en.wikipedia.org/wiki/Arabic_diacritics#Tashkil_.28marks_used_as_phonetic_guides.29</a><br></div><div><a href="https://en.wikipedia.org/wiki/Hebrew_diacritics">https://en.wikipedia.org/wiki/Hebrew_diacritics</a><br></div><div><br></div><div><div>Another example is Lingala, where optional marks are used to indicate tones. In the Unicode UDHR project, we have Lingala text once with and once without tones. However, currently we cannot express this distinction with BCP47 language tags:</div><div><a href="http://www.unicode.org/udhr/d/udhr_lin.html">http://www.unicode.org/udhr/d/udhr_lin.html</a><br></div><div><a href="http://www.unicode.org/udhr/d/udhr_lin_tones.html">http://www.unicode.org/udhr/d/udhr_lin_tones.html</a><br></div><div>(Apart from tones, the two texts should be identical. Currently they aren’t, but that’s an unrelated problem).</div><div><br></div></div><div>Another example is Cherokee, where optional marks can be used to indicate tones.</div><div><br></div><div>Another example is Amharic (and all other Ethiopic languages), where optional marks are used to indicate syllables with geminated (=long) consonants, and/or long vowels.</div><div><br></div><div>In all these examples, the markers are usually not written in regular text. But in children’s books, teaching material for language learners, religious texts, etc., the markers would be written to indicate the otherwise ambiguous pronunciation. Also, there’s specialized applications (eg. corpora for speech applications) that explicitly collect texts with such markers attached. To identify marked text, it would be useful to have a variant subtag.</div><div><br></div><div>An alternative to registering a general "marked" subtag might be different subtags for "vowelmarked", "geminationmarked", "tonemarked", etc. Seems a bit complicated, and those tags would have to be shortened to fit into the length requirements.</div><div><br></div><div>What do you think?</div><div><br></div><div class="gmail_signature"><div dir="ltr">— Sascha</div><div><br></div></div></div>