<font class="Apple-style-span" face="georgia, serif">Ken is right about the maximal source label length being at least 252 in the absence of mapping. </font><div><font class="Apple-style-span" face="georgia, serif"><br></font></div>
<div><font class="Apple-style-span" face="georgia, serif">With the use of mapping, however, it could be substantially longer. This can happen a series of characters in the source can map to a single character, and then are mapped to a single byte in Punycode. That can happen with IDNA2008, or with UTS46 (or any other mapping preprocessing for IDNA2008).</font><div>
<font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">So it is best to just avoid a mention of a limit like 252; either that or explain the situation in more detail.</font></div>
<div><font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">====</font></div><div><font class="Apple-style-span" face="georgia, serif"><br></font></div>
<div><font class="Apple-style-span" face="georgia, serif">Details. </font><span class="Apple-style-span" style="font-family: georgia, serif; ">As illustration, suppose that you had the following, in UTF32.</span></div><div>
<font class="Apple-style-span" face="georgia, serif"><br></font><div><font class="Apple-style-span" face="georgia, serif">00 00 00 41 00 00 03 08 00 00 03 04</font></div><div><font class="Apple-style-span" face="georgia, serif"><br>
</font></div><div><div><font class="Apple-style-span" face="georgia, serif">That sequence, when normalized to NFC, yields </font></div><div><font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">U+01DE ( Ǟ ) LATIN CAPITAL LETTER A WITH DIAERESIS AND MACRON, one character. </font></div>
</div><div><font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">Repeat it 57 times. That is of length 684.</font></div><div><font class="Apple-style-span" face="georgia, serif"><br>
</font></div><div><font class="Apple-style-span" face="georgia, serif">When normalized under NFC, you get </font></div><div><font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">ǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞǞ<br>
</font><div><font class="Apple-style-span" face="georgia, serif"><br></font></div><div><font class="Apple-style-span" face="georgia, serif">That turns into the valid Punycode:</font></div><div><font class="Apple-style-span" face="georgia, serif"><br>
</font></div><div><span class="Apple-style-span" style="font-size: 13px; "><font class="Apple-style-span" face="georgia, serif">xn--bkaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa</font></span></div><div><font class="Apple-style-span" face="georgia, serif"><br>
</font></div><div><div><div><div><font class="Apple-style-span" face="georgia, serif">Mark<br><br></font><i><font class="Apple-style-span" face="georgia, serif">— Il meglio è l’inimico del bene —</font></i><font class="Apple-style-span" face="georgia, serif"><br>
<br><br></font>
<div class="gmail_quote"><font class="Apple-style-span" face="georgia, serif">On Wed, Sep 29, 2010 at 04:27, John C Klensin </font><span dir="ltr"><font class="Apple-style-span" face="georgia, serif"><<a href="mailto:klensin@jck.com">klensin@jck.com</a>></font></span><font class="Apple-style-span" face="georgia, serif"> wrote:<br>
</font><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><font class="Apple-style-span" face="georgia, serif">Thanks.<br>
   john<br><br><br>
--On Tuesday, September 28, 2010 15:02 -0700 Kenneth Whistler<br></font>


<div><div></div><div class="h5"><font class="Apple-style-span" face="georgia, serif"><</font><a href="mailto:kenw@sybase.com"><font class="Apple-style-span" face="georgia, serif">kenw@sybase.com</font></a><font class="Apple-style-span" face="georgia, serif">> wrote:<br>
<br>
> John Klensin said:<br>
><br>
>> (3) My recollection is that the 252 number came from Ken<br>
><br>
> Not me.<br>
><br>
>> or Mark<br>
>> after discussion of the number of code points 63 user-abstract<br>
>> characters could turn into given combining forms.<br>
><br>
> It has nothing to do with combining characters.<br>
><br>
>> The statement<br>
>> in the text was written --again, IIR after considerable WG<br>
>> discussion-- as advice about how long the strings could get,<br>
>> not a normative limit.    At a minimum, I'd like to see if<br>
>> they can reconstruct the reasoning for that number,<br>
><br>
> The reasoning is quite simple. It has to do with Unicode<br>
> encoding forms (and again, nothing whatsoever to do with<br>
> combining characters).<br>
><br>
> 63 encoded characters (Unicode code points) have the<br>
> following minimum and maximum lengths (expressed in octets),<br>
> depending on encoding forms and which particular characters are<br>
> involved.<br>
><br>
> For 63 characters in the ASCII range (U+0020..U+007E)<br>
><br>
>    UTF-8  =  63 octets<br>
>    UTF-16 = 126 octets<br>
>    UTF-32 = 252 octets<br>
><br>
> For 63 character from the supplementary planes (U+10000 and<br>
> above)<br>
><br>
>    UTF-8  = 252 octets<br>
>    UTF-16 = 252 octets<br>
>    UTF-32 = 252 octets<br>
><br>
> Those are the minimum and maximum cases. For some more<br>
> typical mix of characters from the BMP, the UTF-8 length<br>
> will be >= 63 and <= 252 octets.<br>
><br>
> That's it... no mumbo-jumbo involved about what a user<br>
> perceives of as a character or what number of combining<br>
> characters can be applied to a base character or any of that.<br>
><br>
> --Ken<br>
><br>
>> or if someone has the<br>
>> energy to search the discussion archives, before issuing any<br>
>> errata.<br>
><br><br><br><br><br>
______________________________</font>




<font class="Apple-style-span" face="georgia, serif">_________________<br>
Idna-update mailing list<br></font>
<a href="mailto:Idna-update@alvestrand.no"><font class="Apple-style-span" face="georgia, serif">Idna-update@alvestrand.no</font></a><font class="Apple-style-span" face="georgia, serif"><br></font>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank"><font class="Apple-style-span" face="georgia, serif">http://www.alvestrand.no/mailman/listinfo/idna-update</font></a><font class="Apple-style-span" face="georgia, serif"><br>
</font>
</div></div></blockquote></div><br></div></div></div></div></div></div></div>