I agree that it would be nice, and it would be equally nice to lookup any Unicode-Label*. That is, if there is any reason to be suspicious of a Unicode label, then we should be equally suspicious of the corresponding XN-Label. If XN-Labels are presumed to be safe, then we have no reason to mistrust the corresponding Unicode label.<br>
<br>It may very well be that there there is a particular set of cooperating systems, with a gatekeeper, and that anything in XN-Label form has been validated as being an A-Label. And in that case, it clearly doesn&#39;t make any sense to validate over and over again. But you&#39;d better validate on input to that set of systems, otherwise you have no guarantee that it is in fact an A-Label. <br>
<br>Similarly, you could have a particular set of cooperating
systems, with a gatekeeper, and that anything in Unicode-Label form has been
validated as being a U-Label. And in that case, it clearly doesn&#39;t
make any sense to validate over and over again. But you&#39;d better
validate on input to that set of systems, otherwise you have no
guarantee that it is in fact an U-Label. <br>
<br>Mark<br>
<br><br><div class="gmail_quote">On Mon, Mar 23, 2009 at 10:09, Erik van der Poel <span dir="ltr">&lt;<a href="mailto:erikv@google.com">erikv@google.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi Mark,<br>
<br>
I was referring to your comment:<br>
<br>
&quot;if it is important to check those requirements, then it is important<br>
to test both A and U Labels; if it is not important to test them, then<br>
it should not be a requirement for either one.&quot;<br>
<br>
All I&#39;m saying is that it would be nice if a client could lookup any<br>
label that starts with &quot;xn--&quot;. This would allow e.g. Google Search to<br>
convert legal U-labels to legal A-labels, and it would allow the<br>
browser to follow the links, even if the browser implemented an old<br>
version of IDNA.<br>
<br>
It would then be up to the browser to display the underlying Unicode<br>
string in a safe way. Note that browsers are already expected to apply<br>
certain restrictions when displaying the domain name.<br>
<br>
I do agree with your point that, now that we are at Unicode 5.1,<br>
future additions to Unicode are not quite as impactful to the DNS.<br>
We&#39;re in the &quot;long tail&quot;.<br>
<br>
Erik<br>
<br>
On Mon, Mar 23, 2009 at 9:38 AM, Mark Davis &lt;<a href="mailto:mark@macchiato.com">mark@macchiato.com</a>&gt; wrote:<br>
&gt; First off, I have not been pushing for allowing UNASSIGNED on lookup in<br>
&gt; IDNA2008. This is for two reasons:<br>
&gt;<br>
&gt; We have had many Unicode versions since 3.2, so the urgency is not as<br>
&gt; prominent<br>
&gt; Because IDNA2008 updates more regularly, there is less need.<br>
&gt;<br>
&gt; What I have been saying is that allowing UNASSIGNED on lookup wouldn&#39;t make<br>
&gt; a difference, and that&#39;s the case even if a character maps to &quot;.&quot;.<br>
&gt;<br>
&gt; Let&#39;s take a specific example: àbc͸<a href="http://xn--df-7ia.com" target="_blank">dèf.com</a>, where the middle character,<br>
&gt; \u0378, is currently unassigned as far as the client is concerned (because<br>
&gt; it is back-reved), while the registry is on Unicode 6.0. The XN form is<br>
&gt; <a href="http://xn--bcdf-zna5c481a.com" target="_blank">xn--bcdf-zna5c481a.com</a>.<br>
&gt;<br>
&gt; Here&#39;s what happens when the client software (browser, emailer, etc) looks<br>
&gt; the domain name up, depending on what \u0378 turns into under 6.0.<br>
&gt;<br>
&gt; \u0378 becomes DISALLOWED. No problem. No conformant registry can support<br>
&gt; it, even on Unicode 6.0; the lookup is denied.<br>
&gt; \u0378 becomes PVALID. No problem - the lookup works.<br>
&gt; \u0378 becomes mapped to X (assuming we allow mapping on lookup)<br>
&gt;<br>
&gt; X is DISALLOWED, say &quot;$&quot;.  No problem. No conformant registry can support<br>
&gt; it, even on Unicode 6.0; the lookup is denied.<br>
&gt; X is PVALID, say &quot;X&quot;. The lookup fails. The remapped domain name would work<br>
&gt; as <a href="http://xn--bcxdf-qqa4d.com" target="_blank">xn--bcxdf-qqa4d.com</a>, but the original URL would not work until the client<br>
&gt; is updated, or unless the user learns to type X instead until s/he updates<br>
&gt; his/er client.<br>
&gt; X is &quot;.&quot;. The lookup fails. The remapped domain name would work as<br>
&gt; <a href="http://xn--bc-iia.xn--df-7ia.com" target="_blank">xn--bc-iia.xn--df-7ia.com</a>, but the original URL would not work until the<br>
&gt; client is updated, or unless the user learns to type X instead until s/he<br>
&gt; updates his/er client.<br>
&gt;<br>
&gt; Whether the character maps to a dot or not in Unicode 6.0 doesn&#39;t make any<br>
&gt; difference in the scenario. It just fails the lookup in a different way (3.3<br>
&gt; instead of 3.2), but the lookup fails in either case.<br>
&gt;<br>
&gt; Mark<br>
&gt;<br>
&gt; On Sun, Mar 22, 2009 at 17:00, Erik van der Poel &lt;<a href="mailto:erikv@google.com">erikv@google.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Hi again James, thank you for the email. I am quite aware of the dot<br>
&gt;&gt; issues in IDNA. I have first-hand experience with Japanese input<br>
&gt;&gt; methods and their modes, and I understand the motivation for the<br>
&gt;&gt; addition of non-ASCII dot processing in IDNA2003.<br>
&gt;&gt;<br>
&gt;&gt; The issue with U+2CFE COPTIC FULL STOP is a bit subtle, so let me<br>
&gt;&gt; explain. U+2CFE was added in Unicode 4.1. This means that, from the<br>
&gt;&gt; point of view of an IDNA2003 implementation, it is simply an<br>
&gt;&gt; unassigned character. Let&#39;s say we have a domain name like:<br>
&gt;&gt;<br>
&gt;&gt; aaa &lt;U+2CFE&gt; bbb . com<br>
&gt;&gt;<br>
&gt;&gt; Suppose that aaa and bbb are Coptic characters, and the typist<br>
&gt;&gt; happened to have a Coptic input method (though I have no idea whether<br>
&gt;&gt; such things exist!). Further, let&#39;s suppose that the client is using<br>
&gt;&gt; IDNA2003 with the flag &quot;allow unassigned&quot; set to true. If aaa and bbb<br>
&gt;&gt; are already lower-case, the client will do the right thing with them<br>
&gt;&gt; (leaving them as is). However, the client will not know that U+2CFE is<br>
&gt;&gt; a new dot-like character, so it will treat the entire sequence<br>
&gt;&gt; &quot;aaa&lt;U+2CFE&gt;bbb&quot; as a single label. It will then encode it in Punycode<br>
&gt;&gt; (including the dot-like character), and try to resolve that in DNS.<br>
&gt;&gt;<br>
&gt;&gt; Of course, this will not work because the intention was to resolve<br>
&gt;&gt; <a href="http://aaa.bbb.com" target="_blank">aaa.bbb.com</a>, not aaa&lt;U+2CFE&gt;<a href="http://bbb.com" target="_blank">bbb.com</a>. In other words, a new client and<br>
&gt;&gt; an old client would resolve this name differently.<br>
&gt;&gt;<br>
&gt;&gt; I don&#39;t know how many IDNA2003 clients actually set the &quot;allow<br>
&gt;&gt; unassigned&quot; flag to true. It is obviously very dangerous, since the<br>
&gt;&gt; client cannot possibly know how to case-fold the new characters,<br>
&gt;&gt; including Coptic.<br>
&gt;&gt;<br>
&gt;&gt; (And this is also why Mark is wrong when he says that if clients are<br>
&gt;&gt; allowed to lookup XN-labels with unassigned characters, then they<br>
&gt;&gt; should also be allowed to lookup Unicode labels with unassigned<br>
&gt;&gt; characters.)<br>
&gt;&gt;<br>
&gt;&gt; Erik<br>
&gt;&gt;<br>
&gt;&gt; On Sun, Mar 22, 2009 at 2:33 PM, James Seng &lt;<a href="mailto:james@seng.sg">james@seng.sg</a>&gt; wrote:<br>
&gt;&gt; &gt; I think you misunderstood about the &quot;dot&quot; problem. It is not these<br>
&gt;&gt; &gt; &quot;dots&quot; are allowed as domain name but they are identified as<br>
&gt;&gt; &gt; &quot;separator&quot; like &quot;.&quot;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; The main reason is to because when a user switch to CJK inputs, when<br>
&gt;&gt; &gt; he press &quot;.&quot;, most IME will spur out U+3002 instead. If you do not<br>
&gt;&gt; &gt; identify U+3002 as a separator, then a user will have to enter CJK<br>
&gt;&gt; &gt; IME, switch back to English, enter a &quot;.&quot;, switch back to CJK IME etc.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; See <a href="http://tools.ietf.org/html/draft-jet-idnabis-cjk-localmapping-00" target="_blank">http://tools.ietf.org/html/draft-jet-idnabis-cjk-localmapping-00</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; -James Seng<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Mon, Mar 23, 2009 at 1:51 AM, Erik van der Poel &lt;<a href="mailto:erikv@google.com">erikv@google.com</a>&gt;<br>
&gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt; Another question from the summary:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; A. Multiple characters are allowed as &quot;dots&quot; in domain names under<br>
&gt;&gt; &gt;&gt;&gt; IDNA2003 and presumably under IDNAV2. This is a general problem for<br>
&gt;&gt; &gt;&gt;&gt; all versions of IDNA but may be exacerbated by the variants for &quot;dots&quot;<br>
&gt;&gt; &gt;&gt;&gt; that are permitted under IDNA2003 and IDNAv2. What is the WG view?<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; In my view, non-ASCII dots should never have been allowed in IDNA2003.<br>
&gt;&gt; &gt;&gt; However, now that many IDNA2003 implementations have been distributed<br>
&gt;&gt; &gt;&gt; to users and a few stored domain names use these non-ASCII dots, some<br>
&gt;&gt; &gt;&gt; may feel that we have to support them (forever).<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Having said that, I am quite concerned about adding yet another<br>
&gt;&gt; &gt;&gt; non-ASCII dot in IDNAv2 (U+2CFE COPTIC FULL STOP) because IDNA2003<br>
&gt;&gt; &gt;&gt; includes a flag that allows for the lookup of unassigned (in Unicode<br>
&gt;&gt; &gt;&gt; 3.2) characters. Such applications would not only fail to case-fold<br>
&gt;&gt; &gt;&gt; post-Unicode-3.2 characters correctly, they would fail to divide the<br>
&gt;&gt; &gt;&gt; full domain name into individual labels, and since DNS labels are<br>
&gt;&gt; &gt;&gt; &quot;owned&quot; by different owners, this just seems like an invitation to<br>
&gt;&gt; &gt;&gt; further problems.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; In my view, the dot is a keyboard and UI issue. Of course, it would be<br>
&gt;&gt; &gt;&gt; nice if we could push ALL mappings out to the keyboard and UI, but, to<br>
&gt;&gt; &gt;&gt; use one of John&#39;s favorite words, this may be &quot;unrealistic&quot;. ;-)<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Erik<br>
&gt;&gt; &gt;&gt; _______________________________________________<br>
&gt;&gt; &gt;&gt; Idna-update mailing list<br>
&gt;&gt; &gt;&gt; <a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
&gt;&gt; &gt;&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; Idna-update mailing list<br>
&gt;&gt; <a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
&gt;&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
&gt;<br>
&gt;<br>
</blockquote></div><br>