We did a test run over about a billion documents, looking for hrefs that use IDNA, and we got the following information:<br><br>
 <table style="border-collapse: collapse; width: 245pt;" border="0" cellpadding="0" cellspacing="0" width="326"><col style="width: 183pt;" width="244">
 <col style="width: 62pt;" width="82">
 <tbody><tr style="height: 11.25pt;" height="15">
  <td class="xl24" style="height: 11.25pt; width: 183pt;" height="15" width="244"><font size="2">changed by ToUnicode, case variant</font></td>
  <td class="xl25" style="border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">117,546</font></td>
 </tr>
 <tr style="height: 11.25pt;" height="15">
  <td class="xl24" style="border-top: medium none; height: 11.25pt; width: 183pt;" height="15" width="244"><font size="2">changed by ToUnicode, other mapping difference</font></td>
  <td class="xl25" style="border-top: medium none; border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">240,794</font></td>
 </tr>
 <tr style="height: 11.25pt;" height="15">
  <td class="xl24" style="border-top: medium none; height: 11.25pt; width: 183pt;" height="15" width="244"><font size="2">unchanged by ToUnicode</font></td>
  <td class="xl25" style="border-top: medium none; border-left: medium none; width: 62pt; text-align: right;" width="82"><font size="2">1,197,657</font></td>
 </tr>
</tbody></table><br>This is a rough proxy for the proportion of IDNs that would become invalid under the current proposals for IDNAbis (that is, not using case mappings, NFKC, etc.). It is only very rough -- this is preliminary data, and a billion documents is a just a sampling of the web. Nor are we looking at unmapped characters that would be illegal under IDNAbis.
<br><br>We&#39;ll be doing a more accurate test where we see how many old IDNs in hrefs would be invalidated by the change to IDNAbis using the current proposed definitions of IDNAbis character sets and mappings, but we thought people would like to see the preliminary data, rough as it is.
<br><br>Mark<br>