<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:p="urn:schemas-microsoft-com:office:powerpoint" xmlns:a="urn:schemas-microsoft-com:office:access" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:s="uuid:BDC6E3F0-6DA3-11d1-A2A3-00AA00C14882" xmlns:rs="urn:schemas-microsoft-com:rowset" xmlns:z="#RowsetSchema" xmlns:b="urn:schemas-microsoft-com:office:publisher" xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet" xmlns:c="urn:schemas-microsoft-com:office:component:spreadsheet" xmlns:odc="urn:schemas-microsoft-com:office:odc" xmlns:oa="urn:schemas-microsoft-com:office:activation" xmlns:html="http://www.w3.org/TR/REC-html40" xmlns:q="http://schemas.xmlsoap.org/soap/envelope/" xmlns:rtc="http://microsoft.com/officenet/conferencing" xmlns:D="DAV:" xmlns:Repl="http://schemas.microsoft.com/repl/" xmlns:mt="http://schemas.microsoft.com/sharepoint/soap/meetings/" xmlns:x2="http://schemas.microsoft.com/office/excel/2003/xml" xmlns:ppda="http://www.passport.com/NameSpace.xsd" xmlns:ois="http://schemas.microsoft.com/sharepoint/soap/ois/" xmlns:dir="http://schemas.microsoft.com/sharepoint/soap/directory/" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:dsp="http://schemas.microsoft.com/sharepoint/dsp" xmlns:udc="http://schemas.microsoft.com/data/udc" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:sub="http://schemas.microsoft.com/sharepoint/soap/2002/1/alerts/" xmlns:ec="http://www.w3.org/2001/04/xmlenc#" xmlns:sp="http://schemas.microsoft.com/sharepoint/" xmlns:sps="http://schemas.microsoft.com/sharepoint/soap/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:udcs="http://schemas.microsoft.com/data/udc/soap" xmlns:udcxf="http://schemas.microsoft.com/data/udc/xmlfile" xmlns:udcp2p="http://schemas.microsoft.com/data/udc/parttopart" xmlns:wf="http://schemas.microsoft.com/sharepoint/soap/workflow/" xmlns:dsss="http://schemas.microsoft.com/office/2006/digsig-setup" xmlns:dssi="http://schemas.microsoft.com/office/2006/digsig" xmlns:mdssi="http://schemas.openxmlformats.org/package/2006/digital-signature" xmlns:mver="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns:mrels="http://schemas.openxmlformats.org/package/2006/relationships" xmlns:spwp="http://microsoft.com/sharepoint/webpartpages" xmlns:ex12t="http://schemas.microsoft.com/exchange/services/2006/types" xmlns:ex12m="http://schemas.microsoft.com/exchange/services/2006/messages" xmlns:pptsl="http://schemas.microsoft.com/sharepoint/soap/SlideLibrary/" xmlns:spsl="http://microsoft.com/webservices/SharePointPortalServer/PublishedLinksService" xmlns:Z="urn:schemas-microsoft-com:" xmlns:st="" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=gb2312"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:SimSun;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-GB link=blue vlink=purple><div class=WordSection1><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Hi<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>I have received the following enquiry from a colleague (see full query below).  He appears to have a need for the following language tags:<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>zh-Latn-jyutping<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>and<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>cmn-pinyin<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Should I advise that he complete request forms for these new tags?  Can anyone see a problem with these?  Is it just a matter of updating the subtag records for jyutping and pinyin to allow them to be used with the primary language subtags zh and cmn respectively?<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Debbie<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='color:#1F497D'>---------------</span><o:p></o:p></p><p class=MsoNormal>Hello Debbie!<br><br>I hope you are well. I am emailing you because I have a particular problem with language tagging<span style='color:#1F497D'> </span>and I'm getting contradictory answers from my searches of standards and mailing list archives. I'm trying to write software and data for English-speaking learners of Cantonese, and I would appreciate your advice as to how to tag some of the data.<br><br><b><span style='font-size:13.5pt'>My Question: Short version</span></b><br><br>The IANA subtag registry seems to have an asymmetry about Chinese romanizations. If I've understood correctly, it allows:<br><br> zh-Latn-pinyin ("Chinese written in pinyin romanization"), and <br> yue-jyutping ("Cantonese written in jyutping romanization"),<br><br>but not <br><br> zh-Latn-jyutping ("Chinese written in jyutping romanization"), nor<br> cmn-pinyin ("Mandarin written in pinyin romanization").<br><br>Pinyin is a romanization method for Mandarin, whereas Jyutping is a romanization method for Cantonese.<br><br>Is this asymmetry an error?<br><br>What should I use instead of "zh-Latn-jyutping"?<br><br><b><span style='font-size:13.5pt'>My Question: Long version</span></b><br><br><b>Background Facts</b><br><br>You probably know all this already, but I'll go over it to make it clear where I'm coming from.<br><br>Cantonese speakers usually speak with one lexicon (which I will call "Cantonese dialect words") -- used in all registers of speech from teenage chats to courts of law -- but they usually write with a different lexicon (which I'll call "standard Chinese words"), which is essentially the same lexicon used for writing across China (and, not-so-coincidentally, essentially the same lexicon as that used in spoken Mandarin). Here is an example of a lexical difference:<br><br>   Standard Chinese word: <span lang=ZH-CN>ÔõüN</span>, "what" [int. pron.], pronounced "zam2 mo1"<br>  Cantonese Dialect word: <span lang=ZH-CN>Ø¿‡S</span>, "what" [int. pron.], pronounced "mat1 je5"<br><br>A Cantonese speaker would usually write "<span lang=ZH-CN>ÔõüN</span>" (the standard Chinese word), but would usually say "mat1 je5" (the Cantonese dialect word). However, as seen above, the reverse is possible: you can write the Cantonese dialect word in Chinese characters (<span lang=ZH-CN>Ø¿‡S</span>), and you can speak the standard Chinese word with a Cantonese pronounciation ("zam2 mo1" -- which is different from the Mandarin pronounciation which would be "zen me"). Neither would be comprehensible to a Mandarin speaker. You might do the former when writing the script for a play, and the latter when reading a standard Chinese book out loud.<br><br>Note that the two lexicons overlap. There are non-lexical grammar differences but these aren't important for the particular work I'm doing. There's also a completely separate difference between Traditional Chinese characters and Simplified Chinese characters, but I'll ignore this for now by only considering Traditional Chinese characters.<br><br><b>My issue</b><br><br>Learners of Cantonese need to become familiar with both lexicons to order to function fully in Cantonese-speaking situations.<br><br>Therefore, disregarding Simplified Chinese characters for now, the lexicon data I have falls into six varieties:<br><br>1. Standard Chinese words, written in Traditional Chinese characters<br>2. Standard Chinese words, written in jyutping (Cantonese pronounciation)<br>3. Dialect words, written in Traditional Chinese characters<br>4. Dialect words, written in jyutping (Cantonese pronounciation)<br>5. English words<br><br>I am trying to decide which BCP 47 language tags to use for all these. So far, I have:<br><br>1. zh-Hant<br>2. yue-jyutping (???)<br>3. yue-Hant<br>4. yue-jyutping<br>5. en<br><br>I'm really unsure about what tag to use for 2, i.e. the Cantonese pronounciation for reading aloud standard Chinese words which do not appear in the Cantonese dialect lexicon. The options seem to be:<br><br>(A) yue-jyutping (weird)<br>(B1) zh-Latn-jyutping  (illegal, but analogous to zh-Latn-pinyin)<br>(B2) zh-Latn-x-jyutping<br>(C) cmn-jyutping (bizzare, illegal)<br><br>Option (A) seems the only standard option but it is a little weird: we would be using "zh-Hant" to tag a word like <span lang=ZH-CN>ÔõüN</span> (which is in the standard Chinese lexicon but not in the Cantonese dialect lexicon), but then "yue-jyutping" to tag exactly the same word written when romanized. The language has changed from "zh" to "yue" just because we've written it down differently.<br><br>(An alternative would be to tag the word <span lang=ZH-CN>ÔõüN</span> as "yue-Hant", even though it is not in the Cantonese dialect lexicon, because a Cantonese person might potentially read it aloud. But by the same logic, you could tag any Chinese character text whatsoever as "yue", even if it was written by a non-Cantonese speaker and uses only words which are not in the Cantonese dialect lexicon, which is completely absurd).<br><br>Option (B1) best expresses the dialect-neutrality of the standard Chinese lexicon, and seems analogous to zh-Latn-pinyin, which is allowed in the IANA subtag registry. But for some reason, although the "pinyin" subtag is allowed with the prefix "zh-Latn", the "jyutping" subtag is only allowed with the prefix "yue". I can't see why "zh-Latn-jyutping" is not allowed -- it seems to say "some sort of Chinese written in jyutping" which seems perfectly reasonable. Should we ask IANA to allow this?<br><br>(There is also a different argument: if I can legally use the "zh" tag for Cantonese-only characters such as <span lang=ZH-CN>Ø¿‡S</span>, then why can't I use "zh-Latn-jyutping" for exactly the same word written in the jyutping romanization?)<br><br>Option (C) seems bizzare ("Mandarin words as pronounced in Cantonese"), but would be the logical consequence if people say that standard written Chinese is actually Mandarin (which they might say on the grounds that the standard written Chinese lexicon is the same as the spoken Mandarin lexicon).<br><br>So my question is: which tag should I be using (for Standard Chinese words, written in jyutping)?<br><br>I can see why this is complicated; there is inherently some sort of hybridization going on when a Cantonese person reads standard Chinese text aloud with a Cantonese pronounciation. On the other hand, it's not some sort of weird and unusual edge case. People quote written text all the time, and 300 million Chinese people speak a dialect other than Mandarin (which therefore has a different lexicon to standard written Chinese).<br><br><br>Sorry to take up your time, and thanks for reading all this!<br>-- <br>David Chan<o:p></o:p></p></div></body></html>