My comments on the list proposed:<br><br>&gt;Do I see a consensus on this list that I should remove rule 2?<br>Yes, #2 needs to be removed -- many of these are required for modern languages.*<br><br>&gt;Do I see a consensus on this list that I should also include Lm and Nd? (Then rule 4 can be removed.)
<br>Yes, #3 needs to be expanded by adding Lm -- again, many of these are required for modern languages.*, **<br><br>In addition, <br>#1 needs to be removed -- there are many modern languages that use IPA characters.*<br>
#6 should be 'casefolded' (this almost completely the same as lowercase, but there are a few important exceptions)<br><br>* It would be possible to sift through to see which are only
technical, and which are used in modern languages, but as a class they can't be excluded.<br>** There are pluses and minuses to adding Nd as well; <br><br>I'd then recommend a slightly different formulation, because it is unclear when you have rule X saying 'ok' and rule Y saying 'not ok' which one wins. So I'd recast as a series of additions and removals; thus the later one 'wins'. Then the rules would be written as:
<br><br>0. Start with the empty set.<br>1. If generalCategory(cp) is [Ll, Lo, Lm, Mn, Mc], add cp<br>2. If NFKC(cp) != cp, remove cp<br>3. If casefold(cp) != cp, remove cp<br>4. If cp is in [-A-Z0-9], add cp<br><br>Mark<br>
<br><div><span class="gmail_quote">On 12/13/06, <b class="gmail_sendername">Patrik Fältström</b> &lt;<a href="mailto:patrik@frobbit.se">patrik@frobbit.se</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I understand there is confusing what rules have been used TODAY for<br>the list of codepoints.<br><br>These are the rules, the first that matches tell whether the<br>codepoint is ok to include or not.<br><br>1. If block is &quot;IPA Extensions&quot;, the codepoint is not ok
</blockquote><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">2. If the script is &quot;Inherited&quot;, the codepoint is not ok</blockquote>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">3. If the codepoint is [A-Z], the codepoint is ok<br>4. If the codepoint is [0-9], the codepoint is ok
<br>5. If NFKC(cp) != cp, the codepoint is not ok<br>6. If lowercase(cp) != cp, the codepoint is not ok<br>7. If class is [Ll, Lo, Mn, Mc], the codepoint is ok<br><br>I have a suggestion that rule 7 should also include classes Lm and
<br>Nd, but I have not included that.<br><br>Do I see a consensus on this list that I should also include Lm and<br>Nd? (Then rule 4 can be removed.)<br><br>I also have a suggestion that rule 2 above should be removed, that I
<br>went one step too far in conclusions from earlier discussions.<br><br>Do I see a consensus on this list that I should remove rule 2?<br><br>BTW, the URL to the latest document is <a href="http://stupid.domain.name/">http://stupid.domain.name/
</a><br>idnabis/table-latest.html.<br><br>Other changes you will see is:<br><br>(a) The list of rules (that you see above) will be included in the<br>document<br>(b) The scripts will be in english alphabetical order<br><br>
&nbsp;&nbsp;&nbsp;&nbsp; Patrik<br><br>_______________________________________________<br>Idna-update mailing list<br><a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br><a href="http://www.alvestrand.no/mailman/listinfo/idna-update">
http://www.alvestrand.no/mailman/listinfo/idna-update</a><br></blockquote></div><br><br clear="all"><br>-- <br>Mark