<br clear="all">Mark<br>
<br><br><div class="gmail_quote">On Fri, Mar 20, 2009 at 05:19, Vint Cerf <span dir="ltr">&lt;<a href="mailto:vint@google.com">vint@google.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
...<br>
<br>
Mark,<br>
<br>
One of the many concerns I have heard raised on this list relates to character-by-character assessment of Unicode as it applies to IDNs. I think few people wish to produce IDNA tables that way. I don&#39;t dispute your reasoning to exclude (I don&#39;t know enough about Arabic to do so) but I am wondering whether there is a way to do this that is rule-based or context based or something that exercises the mechanisms of IDNA2008?</blockquote>
<div><br>Note that we already have a number of such exceptional characters, those in (F) <a href="http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6">http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6</a>, that are singled out. And categories D, H, and I are also really exceptional. They happen to be describable with properties, but their inclusion is based on other reasons than some reason connected with the meaning of those properties.<br>
<br>However, this was a very good suggestion. Using properties often reveals other cases, and it does so in this case. The intersection of  two properties picks out that character plus another that is likely to behave the same way (I need to get confirmation of this).<br>
<br><a href="http://unicode.org/cldr/utility/list-unicodeset.jsp?a=[[:Extender=True:]%26[:Joining_Type=Join_Causing:]]">http://unicode.org/cldr/utility/list-unicodeset.jsp?a=[[:Extender=True:]%26[:Joining_Type=Join_Causing:]]</a><br>
<br>Here is the result, for those whose emailers don&#39;t support links:<br><h2 style="margin-left: 40px;">Arabic - <i>Based on ISO 8859-6</i></h2>
<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=0640">U+0640</a></code> ( ‎ـ‎ ) ARABIC TATWEEL<br></div>
<h2 style="margin-left: 40px;">NKo - <i>Letter extender</i></h2>
<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=07FA">U+07FA</a></code> ( ‎ߺ‎ ) NKO LAJANYALAN<br></div><br>I&#39;ll also propose these for Table 4 in <a href="http://www.unicode.org/reports/tr31/#Specific_Character_Adjustments">http://www.unicode.org/reports/tr31/#Specific_Character_Adjustments</a><br>
<br>FYI: the following characters that are added by Tables (F) <a href="http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6">http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6</a> are not in the candidates in Table 3 of UAX #31. As I recall, all of them are somewhat dubious.<br>
<br><h2 style="margin-left: 40px;">Greek And Coptic - <i>Numeral signs</i></h2>
<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=0375">U+0375</a></code> ( ͵ ) GREEK LOWER NUMERAL SIGN<br></div><h2 style="margin-left: 40px;">Arabic - <i>Signs for Sindhi</i></h2>

<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=06FD">U+06FD</a></code> ( ‎۽‎ ) ARABIC SIGN SINDHI AMPERSAND<br><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=06FE">U+06FE</a></code> ( ‎۾‎ ) ARABIC SIGN SINDHI POSTPOSITION MEN<br>
</div>

<h2 style="margin-left: 40px;">Tibetan - <i>Marks and signs</i></h2>
<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=0F0B">U+0F0B</a></code> ( ་ ) TIBETAN MARK INTERSYLLABIC TSHEG<br></div>
<h2 style="margin-left: 40px;">Katakana - <i>Conjunction and length marks</i></h2>
<div style="margin-left: 40px;"><code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=30FB">U+30FB</a></code> ( ・ ) KATAKANA MIDDLE DOT<br></div><br>Patrik,<br><br>Tthe listing of characters in <a href="http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6">http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6</a> could be improved to make it clear what is going on. As it is, it maps characters to PVALID, CONTEXTO, and/or DISALLOWED. It would be handier to have different sections in F. No substantive change, but makes it easier to understand<br>
<br><pre class="newpage"><b>PVALID: // would otherwise have been DISALLOWED<br></b></pre>
<pre class="newpage">   00DF; PVALID     # LATIN SMALL LETTER SHARP S<br>   03C2; PVALID     # GREEK SMALL LETTER FINAL SIGMA<br>   06FD; PVALID     # ARABIC SIGN SINDHI AMPERSAND<br>   06FE; PVALID     # ARABIC SIGN SINDHI POSTPOSITION MEN<br>
   0F0B; PVALID     # TIBETAN MARK INTERSYLLABIC TSHEG<br>   3007; PVALID     # IDEOGRAPHIC NUMBER ZERO<br><br><b>CONTEXTO: // would otherwise have been DISALLOWED<br></b>   00B7; CONTEXTO   # MIDDLE DOT<br>   0375; CONTEXTO   # GREEK LOWER NUMERAL SIGN (KERAIA)<br>
   05F3; CONTEXTO   # HEBREW PUNCTUATION GERESH<br>   05F4; CONTEXTO   # HEBREW PUNCTUATION GERSHAYIM<br>   30FB; CONTEXTO   # KATAKANA MIDDLE DOT
<br><b>CONTEXTO: // would otherwise have been PVALID<br></b>   002D; CONTEXTO   # HYPHEN-MINUS<br>   02B9; CONTEXTO   # MODIFIER LETTER PRIME<br>   0660; CONTEXTO   # ARABIC-INDIC DIGIT ZERO<br>   0661; CONTEXTO   # ARABIC-INDIC DIGIT ONE<br>
   0662; CONTEXTO   # ARABIC-INDIC DIGIT TWO<br>   0663; CONTEXTO   # ARABIC-INDIC DIGIT THREE<br>   0664; CONTEXTO   # ARABIC-INDIC DIGIT FOUR<br>   0665; CONTEXTO   # ARABIC-INDIC DIGIT FIVE<br>   0666; CONTEXTO   # ARABIC-INDIC DIGIT SIX<br>
   0667; CONTEXTO   # ARABIC-INDIC DIGIT SEVEN<br>   0668; CONTEXTO   # ARABIC-INDIC DIGIT EIGHT<br>   0669; CONTEXTO   # ARABIC-INDIC DIGIT NINE<br>   06F0; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT ZERO<br>   06F1; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT ONE<br>
   06F2; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT TWO<br>   06F3; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT THREE<br>   06F4; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT FOUR<br>   06F5; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT FIVE<br>
   06F6; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT SIX<br>   06F7; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT SEVEN<br>   06F8; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT EIGHT<br>   06F9; CONTEXTO   # EXTENDED ARABIC-INDIC DIGIT NINE<br>
   0483; CONTEXTO   # COMBINING CYRILLIC TITLO<br>   3005; CONTEXTO   # IDEOGRAPHIC ITERATION MARK<br>   303B; CONTEXTO   # VERTICAL IDEOGRAPHIC ITERATION MARK<br><br><b>DISALLOWED: // would otherwise have been PVALID<br>
</b>   302E; DISALLOWED # HANGUL SINGLE DOT TONE MARK<br>   302F; DISALLOWED # HANGUL DOUBLE DOT TONE MARK<br></pre><br><br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
vint<br><font color="#888888">
<br>
<br>
<br>
Vint Cerf<br>
Google<br>
1818 Library Street, Suite 400<br>
Reston, VA 20190<br>
202-370-5637<br>
<a href="mailto:vint@google.com" target="_blank">vint@google.com</a></font><div><div></div><div class="h5"><br>
<br>
<br>
<br>
<br>
On Mar 20, 2009, at 7:00 AM, Alireza Saleh wrote:<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I don&#39;t see why we should not just let the registry have the authority<br>
to do this? If you want to disallow this at the protocol level, you<br>
should also consider  disallowing the Low rise &#39;U+005F&#39;  and<br>
Hyphen-minus U+002D because these have also the same shape as Tatweel<br>
specially when they come in between of non-joining characters. My<br>
opinion is to limit protocol prohibitions to absolutely necessary cases.<br>
<br>
Alireza<br>
<br>
Mark Davis wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I propose that we make U+0640 ( ‎ـ‎ ) ARABIC TATWEEL (aka kashida) be<br>
DISALLOWED, adding it to<br>
<a href="http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6" target="_blank">http://tools.ietf.org/html/draft-ietf-idnabis-tables-05#section-2.6</a>.<br>
Currently it is PVALID, but it does not carry semantics by any<br>
Arabic-Script orthography, and its only value is for spoofing.<br>
<br>
For example: جوجل can be written with extra kashidas as جـوجل or as<br>
جوجـل by inserting a kashida after the first or third character. This<br>
is very hard for users to detect. We added it to Unicode for use in<br>
manual justification, but has no place in IDNA.<br>
<br>
(<a href="http://en.wikipedia.org/wiki/Kashida" target="_blank">http://en.wikipedia.org/wiki/Kashida</a>,<br>
<a href="http://unicode.org/cldr/utility/character.jsp?a=0640" target="_blank">http://unicode.org/cldr/utility/character.jsp?a=0640</a>)<br>
<br>
Mark<br>
_______________________________________________<br>
Idna-update mailing list<br>
<a href="mailto:Idna-update@alvestrand.no" target="_blank">Idna-update@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
<br>
</blockquote>
<br>
_______________________________________________<br>
Idna-update mailing list<br>
<a href="mailto:Idna-update@alvestrand.no" target="_blank">Idna-update@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
</blockquote>
<br>
</div></div></blockquote></div><br>