Actually, one question that has come up. It appears that in <a href="http://www.ietf.org/internet-drafts/draft-klensin-idnabis-issues-01.txt">http://www.ietf.org/internet-drafts/draft-klensin-idnabis-issues-01.txt</a> no mappings are being done, thus the &quot;
B.1 Commonly mapped to nothing&quot; characters from rfc3454 are simply illegal. The only ones that would be mapped to nothing would be the joiners (subject to context).<br><br>Is this the intent?<br><br>Mark<br><br><div>
<span class="gmail_quote">On 3/15/07, <b class="gmail_sendername">Mark Davis</b> &lt;<a href="mailto:mark.davis@icu-project.org">mark.davis@icu-project.org</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
We did a test run over about a billion documents, looking for hrefs that use <span id="st" name="st" class="st">IDNA</span>, and we got the following information:<br><br>
 <table style="border-collapse: collapse; width: 245pt;" border="0" cellpadding="0" cellspacing="0" width="326"><col style="width: 183pt;" width="244">
 <col style="width: 62pt;" width="82">
 <tbody><tr height="15">
  <td style="width: 183pt;" height="15" width="244"><font size="2">changed by ToUnicode, case variant</font></td>
  <td style="border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">117,546</font></td>
 </tr>
 <tr height="15">
  <td style="border-top: medium none; width: 183pt;" height="15" width="244"><font size="2">changed by ToUnicode, other mapping difference</font></td>
  <td style="border-top: medium none; border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">240,794</font></td>
 </tr>
 <tr height="15">
  <td style="border-top: medium none; width: 183pt;" height="15" width="244"><font size="2">unchanged by ToUnicode</font></td>
  <td style="border-top: medium none; border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">1,197,657</font></td>
 </tr>
</tbody></table><br>This is a rough proxy for the proportion of IDNs that would become invalid under the current proposals for IDNAbis (that is, not using case mappings, NFKC, etc.). It is only very rough -- this is preliminary data, and a billion documents is a just a sampling of the web. Nor are we looking at unmapped characters that would be illegal under IDNAbis.
<br><br>We&#39;ll be doing a more accurate test where we see how many old IDNs in hrefs would be invalidated by the change to IDNAbis using the current proposed definitions of IDNAbis character sets and mappings, but we thought people would like to see the preliminary data, rough as it is.
<br><span class="sg"><br>Mark<br>
</span></blockquote></div><br><br clear="all"><br>-- <br>Mark