<div dir="ltr"><div class="gmail_default" style="font-family:'times new roman',serif">On that principle, I think we are all in accord. </div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">Unicode, however, doesn't consider any of the following pairs to <i>be</i> the same character. Moreover, changing what we <i>do</i> consider the same character (via NFC) would run into severe compatibility problems.</div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default"><div class="gmail_default"><font face="times new roman, serif">U+08A1 ARABIC LETTER BEH WITH HAMZA ABOVE</font></div><div class="gmail_default"><font face="times new roman, serif">U+0628 ARABIC LETTER BEH​ ​U+0654 ARABIC HAMZA ABOVE</font></div><div class="gmail_default"><font face="times new roman, serif"><br></font></div><div class="gmail_default"><font face="times new roman, serif">U+006F LATIN SMALL LETTER O</font></div><div class="gmail_default"><font face="times new roman, serif">U+043E CYRILLIC SMALL LETTER O</font></div><div class="gmail_default"><font face="times new roman, serif"><br></font></div><div class="gmail_default"><span style="font-family:'times new roman',serif">U+00F8 ( ø ) LATIN SMALL LETTER O WITH STROKE</span></div><div class="gmail_default"><font face="times new roman, serif">U+006F, U+0337 ( o̷ ) LATIN SMALL LETTER O, COMBINING SHORT SOLIDUS OVERLAY</font></div><div class="gmail_default"><br></div><div class="gmail_default"><div class="gmail_default" style="font-family:'times new roman',serif">And Patrick, the IAB letter recommending that U+0626, ARABIC LETTER YEH WITH HAMZA ABOVE not be used in identifiers is tantamount to recommending that U+00F8 ( ø ) LATIN SMALL LETTER O WITH STROKE not occur in identifiers. Fine for you Swedes, but surely you must have some Danish and Norwegian friends ;-)</div><div><br></div></div></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><font face="'times new roman', serif"><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px"><div></div></div><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px"><br></div><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px"><a href="https://google.com/+MarkDavis" target="_blank">Mark</a></div><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px"><i><br></i></div><div style="background-color:transparent;margin-top:0px;margin-left:0px;margin-bottom:0px;margin-right:0px"><i>— Il meglio è l’inimico del bene —</i></div></font><div><div><font face="'times new roman', serif"><i><span style="font-style:normal"><i></i></span><i></i></i></font></div></div></div></div></div>
<br><div class="gmail_quote">On Wed, Jan 28, 2015 at 2:58 PM, Patrik Fältström <span dir="ltr"><<a href="mailto:paf@frobbit.se" target="_blank">paf@frobbit.se</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">My view is similar to yours Vint.<div><br></div><div>I think we must ensure that after stability validation (with the help of repeated application of lower case and normalization functions) have one and only one representation of each "character". Either as the composed code point, or as a base code point with one or more combination code points. And this without use of any context (like language) what so ever.</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>   Patrik</div></font></span><div><br><div><blockquote type="cite"><div><div class="h5"><div>On 28 jan 2015, at 10:39, Vint Cerf <<a href="mailto:vint@google.com" target="_blank">vint@google.com</a>> wrote:</div><br></div></div><div><div><div class="h5"><div dir="ltr">i had something different in mind. What was key to IDNA2008 was the uniqueness of the UNICODE/PUNYCODE representations. Essentially, after normalization, one expects that the two strings are unambiguously equivalent. mapping from normalized unicode to punycode and back should produce the same (character for character) string. The problem that the Hamza discussion illustrates, as I understand it, is that there is no normalization that produces this result if one string uses the combined character and another uses the composed character sequence - no normalization produces an unambiguous result. <div><br></div><div>v</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 28, 2015 at 3:43 AM, Mark Davis <img goomoji="2615" style="margin:0 0.2ex;vertical-align:middle;max-height:24px" alt="☕" src="cid:2615@goomoji.gmail">️ <span dir="ltr"><<a href="mailto:mark@macchiato.com" target="_blank">mark@macchiato.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><span><br><div class="gmail_quote">On Wed, Jan 28, 2015 at 9:20 AM, Vint Cerf <span dir="ltr"><<a href="mailto:vint@google.com" target="_blank">vint@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div>I am reading your message as saying "ambiguity is ok if there are few instances of it" while some of us would like the handling of identifiers encoded with Unicode to be unambiguous. </div><div><div></div></div></blockquote></div><br></span><div class="gmail_default"><font face="times new roman, serif">The sense of "unambiguous" that matters to users is that when they read a sequence of glyphs, their interpretation of the underlying character sequence is correct (in normal environments, with common fonts).</font></div><div class="gmail_default"><font face="times new roman, serif"><br></font></div><div class="gmail_default"><font face="times new roman, serif">That level of "unambiguous" was impossible, even before Unicode.</font></div><div class="gmail_default"><font face="times new roman, serif"><br></font></div><div class="gmail_default"><font face="times new roman, serif">Take 8859-5, with both o and Russian o, or ASCII with "google.corn" vs "<a href="http://goog1e.com/" target="_blank">goog1e.com</a>". [Both the 1 and lowercase L are an issue, but also in many fonts—in common use—users will read the (r + n) in the former as an m.]</font></div><div class="gmail_default"><font face="times new roman, serif"><br></font></div><div class="gmail_default"><font face="times new roman, serif">To extend Andrew's death analogy, there is no way that we can all live forever. However, there are clearly medical processes and social policies that can improve and extend the years that we all have. But to be productive, the focus needs to be on the big ticket items, and thus needs to be prioritized by real data.</font></div><span><div><div><div dir="ltr"><font face="'times new roman', serif"><div style="margin:0px;background-color:transparent"><div></div></div><div style="margin:0px;background-color:transparent"><br></div><div style="margin:0px;background-color:transparent"><a href="https://google.com/+MarkDavis" target="_blank">Mark</a></div><div style="margin:0px;background-color:transparent"><i><br></i></div><div style="margin:0px;background-color:transparent"><i>— Il meglio è l’inimico del bene —</i></div></font><div><div><font face="'times new roman', serif"><i><span style="font-style:normal"><i></i></span><i></i></i></font></div></div></div></div></div>
</span></div></div>
</blockquote></div><br></div></div></div><span class="">
_______________________________________________<br>Idna-update mailing list<br><a href="mailto:Idna-update@alvestrand.no" target="_blank">Idna-update@alvestrand.no</a><br><a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br></span></div></blockquote></div><br></div></div></blockquote></div><br></div>