<font face="times new roman,serif">Some comments on part of the document.</font><div><ul style="margin-top:10px;margin-right:0px;margin-bottom:1em;margin-left:25px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:0px;line-height:20px;color:rgb(68,68,68);font-family:Arial,sans-serif;font-size:14px;background-color:rgb(255,255,255)">
<li style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:5px;line-height:1.4">Count Common or Inherited characters that are only used with a limited number of scripts as being in either or each script, instead of ignoring them completely. For example, U+0640 ARABIC TATWEEL is used with the scripts Arabic and Syriac, but not Latin or Hangul. This work would be potentially time-consuming and complicated; we may have to call in domain experts.</li>
</ul><div><font color="#444444" face="Arial, sans-serif"><span style="font-size:14px;line-height:19px">The Unicode Consortium in U6.1 (due out soon) is adding the property Script_Extensions, to provide that data. The sample code in #39 should be updated to include that, so handling those cases.</span></font></div>
<ul style="margin-top:10px;margin-right:0px;margin-bottom:1em;margin-left:25px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:0px;line-height:20px;color:rgb(68,68,68);font-family:Arial,sans-serif;font-size:14px;background-color:rgb(255,255,255)">
<li style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:5px;line-height:1.4">Check for mixing numbers from different systems, such as U+0660 ( ٠ ) ARABIC-INDIC DIGIT ZERO with U+06F0 ( ۰ ) EXTENDED ARABIC-INDIC DIGIT ZERO, or U+09EA ( ৪ ) BENGALI DIGIT FOUR with U+0038 ( 8 ) DIGIT EIGHT. Perhaps we could restrict non-Arabic numerals to particular languages, e.g. Bengali numerals to Bengali?</li>
</ul><div><font color="#444444" face="Arial, sans-serif"><span style="font-size:14px;line-height:19px">Most of the check for different numbering systems is handled by the script detection. The only real additional work is to verify there there is no more than one numbering system. That is, the Bengali 4 has a script of Bengali, so if you have "a</span></font><span style="background-color:rgb(255,255,255);color:rgb(68,68,68);font-family:Arial,sans-serif;font-size:14px;line-height:19px">৪</span><span style="font-size:14px;line-height:19px;color:rgb(68,68,68);font-family:Arial,sans-serif">" it counts as two different scripts, Bengali and Latin.</span></div>
<ul style="margin-top:10px;margin-right:0px;margin-bottom:1em;margin-left:25px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:0px;line-height:20px;color:rgb(68,68,68);font-family:Arial,sans-serif;font-size:14px;background-color:rgb(255,255,255)">
<li style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:5px;line-height:1.4">Check for strings which contain both simplified-only and traditional-only Chinese characters, using the Unihan data in the Unicode Character Database. Does our platform have access to this data? If not, how large is it?</li>
</ul><div><font color="#444444" face="Arial, sans-serif"><span style="font-size:14px;line-height:19px">The Unihan database has mappings from simplified to traditional and vv. Those mappings are about 16K each (binary on disk). However, just using that info to produce a simple test would be markedly smaller.</span></font></div>
<ul style="margin-top:10px;margin-right:0px;margin-bottom:1em;margin-left:25px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:0px;line-height:20px;color:rgb(68,68,68);font-family:Arial,sans-serif;font-size:14px;background-color:rgb(255,255,255)">
<li style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:5px;line-height:1.4">Detect sequences of the same nonspacing mark.</li><li style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0px;padding-top:0px;padding-right:0px;padding-bottom:0px;padding-left:5px;line-height:1.4">
Check to see that all the characters are in the sets of exemplar characters for at least one language in the Unicode Common Locale Data Repository. [XXX What does this mean? -- Gerv]</li></ul><div><font color="#444444" face="Arial, sans-serif"><span style="font-size:14px;line-height:19px">The Unicode CLDR project gathers information on the characters used in given languages, both the main characters, and those commonly used 'foreign' characters.</span></font></div>
<font face="'times new roman', serif"><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px;font-family:Times;font-size:medium"><span style="font-family:'times new roman',serif;font-size:small"><br>
</span></div><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px;font-family:Times;font-size:medium"><span style="font-family:'times new roman',serif;font-size:small">Mark</span></div>
</font><font face="'times new roman', serif"><i>— Il meglio è l’inimico del bene —</i></font><div><font face="'times new roman', serif"><i><br></i></font><div><font face="'times new roman', serif"><i><span style="font-style:normal"><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px">
[<a href="https://plus.google.com/114199149796022210033" target="_blank">https://plus.google.com/114199149796022210033</a>]</div><i></i></span><i></i></i></font></div></div><br>
<br><br><div class="gmail_quote">On Fri, Jan 20, 2012 at 10:38, Gervase Markham <span dir="ltr"><<a href="mailto:gerv@mozilla.org">gerv@mozilla.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Thanks to all on this list who provided input; I have taken several of your suggestions into this proposal for a change to the way Firefox chooses how to display IDNs:<br>
<br>
<a href="https://wiki.mozilla.org/IDN_Display_Algorithm" target="_blank">https://wiki.mozilla.org/IDN_<u></u>Display_Algorithm</a><br>
<br>
Comments, particularly on the "Possible Issues and Open Questions", would be very welcome.<br>
<br>
Gerv<br>
______________________________<u></u>_________________<br>
Idna-update mailing list<br>
<a href="mailto:Idna-update@alvestrand.no" target="_blank">Idna-update@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/<u></u>mailman/listinfo/idna-update</a><br>
</blockquote></div><br></div>