I ran a test to determine the differences between the IDNA2003 mappings and the proposed mappings. The results are at:<br><br><a href="http://www.macchiato.com/unicode/idna/mapping-differences">http://www.macchiato.com/unicode/idna/mapping-differences</a><br>
<br><br><b>Comments on the data:</b><br><br>Based on the information on character frequencies, I think we could live with doing the mapping based on case+width (that is, excluding other NFKC forms). That would leave the only open issues in the mapping being the sigma/eszett, and SHOULD vs MUST.<br>
<br>Note, however, that it is worth reviewing the lists to see if other cases pop out. The one I posted has the top 10 characters in each group by frequency. I can post the full list, if anyone would make use of it for review.<br>
<br><br><b>Comments on the mapping doc:</b><br><ol><li>The fact that NFC MUST go last has already been discussed.</li><li>The exclusion to dt=narrow or dt=wide works, and it gets the most common characters that have different mappings. However, the characters need to be transformed not to their decomposition mapping, but to their NFKC form. The decomposition mapping must be applied recursively to have the correct results. Now, for the current characters under discussion, it makes no difference. But we can&#39;t say for future characters.</li>
<li>Just like in TABLES, there should be an Exception list of mappings, currently empty. This allows for future-proofing, including grandfathered mappings for the future, and possible idempotence fixes.<br></li></ol>Mark<br>