I sent this almost a month ago, and got no reply. I'm assuming that the
lack of response was due to the holidays, and some discussion or
response for these items will be forthcoming soon.<br><br>Mark<br><br><div class="gmail_quote">On Dec 13, 2007 7:47 PM, Mark Davis &lt;<a href="mailto:mark.davis@icu-project.org">mark.davis@icu-project.org</a>&gt; wrote:
<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><h1><a title="http://www.ietf.org/internet-drafts/draft-klensin-idnabis-protocol-02.txt" href="http://www.ietf.org/internet-drafts/draft-klensin-idnabis-protocol-02.txt" target="_blank">
http://www.ietf.org/internet-drafts/draft-klensin-idnabis-protocol-02.txt
</a> </h1>
<h2>Overview:</h2><br>Protocol-1. By excluding case/width folding,
there will be significant backwards compatibility problems, caused by
having no standard folding. Examples of current usage:<br><br>
<table style="border-collapse: collapse;" border="1" cellpadding="3" cellspacing="0">
<tbody>
<tr>
<th><font size="2"><br></font></th>
<th><font size="2">U-Label</font><br></th>
<th><font size="2">U-Label Escaped<br></font></th>
<th><font size="2">Current Punycode</font></th></tr>
<tr>
<td><font size="2">1</font></td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://öbb.at</a></font></td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://%C3%B6bb.at</a></font> </td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://xn--bb-eka.at</a></font></td>
<td><font size="2">canonical, allowed in both IDNA2003 and IDNAbis<br></font></td></tr>
<tr>
<td><font size="2">2</font></td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://ÖBB.at</a></font> </td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://%C3%96bb.at</a></font> </td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://xn--bb-eka.at</a></font></td>
<td><font size="2"><b>Disallowed in IDNAbis: </b>case variation</font></td></tr>
<tr>
<td><font size="2">3</font></td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://öbb.at</a></font> </td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://%C3%B6%EF%BD%82b.at</a></font> </td>
<td><font size="2"><a href="http://%c3%b6bb.at/" target="_blank">http://xn--bb-eka.at</a></font></td>
<td><font size="2"><b>Disallowed in IDNAbis: </b></font><font size="2">width variation (NFKC)</font></td></tr></tbody></table><br>I
am very concerned about the breakage that will occur if the folding
operations are entirely at the option of the implementation. See the
mail discussion under &quot;IDNAbis compatibility&quot;: <br><br>
<div style="margin-left: 40px;"><a href="http://www.alvestrand.no/pipermail/idna-update/2007-March/000537.html" target="_blank">http://www.alvestrand.no/pipermail/idna-update/2007-March/000537.html</a><br><a href="http://www.alvestrand.no/pipermail/idna-update/2007-April/thread.html" target="_blank">

http://www.alvestrand.no/pipermail/idna-update/2007-April/thread.html</a><br></div><br>I&#39;ll
copy one portion. As of last March, &quot;Out of a significantly large
sampling of the web, there were about 800,000 cases where an HTML
document contained an href=&quot;...&quot; that contained a host name that was
valid IDNA2003. We tested those host names to see if they would also be
valid under IDNAbis (based on the current working proposals). About 85%
were valid, about 8% more would be valid if IDNAbis were changed to
also do case and width folding, and about 6% would still be invalid
even if case and width foldings were applied. (The width foldings are
applying NFKC to just the half-width and full-width characters to get
the normal ones.) &quot;<br><br>IDNAbis is already excluding thousands of
characters that used to be valid. There is, however, rough consensus
that symbol characters, punctuation, and others were ok to exclude, and
their numbers are relatively small. <br><br>But the folding case is
different. The case/NFKC folding of IDNA is not just a UI issue; there
are a huge number in email, web pages, and so on. I&#39;m very leary of
causing 4% of embedded URLs to break. And we haven&#39;t seen any real
evidence that case/width folding is a real, demonstrable problem. <br><br>Note:
There is only really one locale where locale-sensitive lowercasing is
needed, and that is for Turkish (and related languages using the same
conventions in Latin). There are some possible issues with uppercasing
(typically in whether accents are retained, although there are clear
differences of opinion on this topic, such as in French), but those are
not relevant to IDNA since only the lowercasing is at issue. <br><br>Now,
one possibility is that we have a separate IDNA-Folding document that
preserves the case/width folding of IDNA2003. Then other standards,
protocols, and implementations (such as browsers) could also claim
conformance to that. This wouldn&#39;t be as good as keeping it inside the
IDNA umbrella, but would be better than a potential huge backwards
compatibility breakage. <br><br>Protocol-2.&nbsp; Section 5 has
Normalization (5.5), but it is missing from Section 4. It must be there
also (probably just an oversight).<br><br>Protocol-3.&nbsp; It needs to have a prohibition on a leading combining mark. See Michel&#39;s emails.<br><br>Protocol-4.&nbsp; Some of the same issues as <a title="http://www.ietf.org/internet-drafts/draft-faltstrom-idnabis-tables-03.txt" href="http://www.ietf.org/internet-drafts/draft-faltstrom-idnabis-tables-03.txt" target="_blank">

draft-faltstrom-idnabis-tables-03.txt</a>, such as MAYBE YES vs MAYBE NO. <br><br>Protocol-5.&nbsp;
The &quot;Contextual Rules&quot; need to be supplied. (What is the format?
Machine readable? Are there default required ones -- there should be,
for ZWJ/ZWNJ).<br><br>Protocol-6.&nbsp; Section 5.1 assumes that URLs are
entered by users, when they are often (perhaps most often) interpreted
by machines. That is of great importance, of course, for search
engines, email readers, browsers, and others. <br>
<h2>Details</h2><br>Protocol-7.<br><pre>   Unicode (without surrogates), paralleling the process above<br><br></pre>
<p>(Minor) this is unnecessary. The tables disallow surrogates. </p><br>Protocol-8.<br><pre>      a character is never removed from<br>      it unless it is removed from Unicode.<br></pre>
<p>This is not necessary. If you really have to have it, then add
&quot;(however, the Unicode stability policies expressly forbid this)&quot; </p>
</blockquote></div><br><br clear="all"><br>-- <br>Mark