Hmmm. To answer that,<br><ul><li>I&#39;d look first at the characters with &quot;VERTICAL&quot; and &quot;REPEAT&quot; or &quot;ITERATION&quot; in their name:</li><ul><li><a href="http://unicode.org/cldr/utility/list-unicodeset.jsp?a=">http://unicode.org/cldr/utility/list-unicodeset.jsp?a=</a>\p{name%3D%2FVERTICAL.*%28REPEAT|ITERATION%29%2F}</li>
</ul><li>Picking one, we can see the properties:</li><ul><li><a href="http://unicode.org/cldr/utility/character.jsp?a=3032">http://unicode.org/cldr/utility/character.jsp?a=3032</a></li></ul><li>All of them are in the block [:Block=CJK_Symbols_And_Punctuation:], and in Letter Modifier:</li>
<ul><li><a href="http://unicode.org/cldr/utility/list-unicodeset.jsp?a=[">http://unicode.org/cldr/utility/list-unicodeset.jsp?a=[</a>\p{Block%3DCJK_Symbols_And_Punctuation}%26\p{lm}]</li></ul><li>The additional character in this set is <code><a target="c" href="http://unicode.org/cldr/utility/character.jsp?a=3005">U+3005</a></code> ( 々 ) IDEOGRAPHIC ITERATION MARK. That is called out specially as a context character in <a name="section-2.6">2.6</a>.  Exceptions (F), so we don&#39;t have to worry about it.<br>
</li><li>So we could use the above set.</li></ul>If so, we could do this by changing Tables 2.9 to be:<br><br><pre class="newpage"><span class="h3"><h3><a name="section-2.9">2.9</a>.  Other Exclusions by Property (I)</h3>
</span><br>   I: Hangul_Syllable_Type(cp) is in {L, V, T} or<br>      (General_Category(cp) is Lm and Block(cp) = CJK_Symbols_And_Punctuation)<br><br>   This category consists of all conjoining Hangul Jamo (Leading Jamo,<br>
   Vowel Jamo, and Trailing Jamo), plus exclusion of Letter Modifiers in the <br>   CJK_Symbols_And_Punctuation block<br><br>   Elimination of conjoining Hangul Jamos from the set of PVALID<br>   characters results in restricting the set of Korean PVALID characters<br>
   just to preformed, modern Hangul syllable characters.  Old Hangul<br>   syllables, which must be spelled with sequences of conjoining Hangul<br>   Jamos, are not PVALID for IDNs.<br><br>   These particular letter modifiers are not required in normal presentation.<br>
</pre><br clear="all">Mark<br>
<br><br><div class="gmail_quote">On Wed, Jul 15, 2009 at 14:43, Vint Cerf <span dir="ltr">&lt;<a href="mailto:vint@google.com">vint@google.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
If we can possibly avoid char by char rules that would be very helpful<br>
in dealing with updates to Unicode.<br>
<br>
I gather these characters don&#39;t quite fall into a category that would<br>
permit algorithmic treatment?<br>
<font color="#888888"><br>
vint<br>
</font><div><div></div><div class="h5"><br>
<br>
On Jul 15, 2009, at 5:06 PM, Eric Brunner-Williams wrote:<br>
<br>
&gt; Kenneth Whistler wrote:<br>
&gt;&gt; I agree with Wil Tan about this.<br>
&gt;&gt;<br>
&gt;&gt; The Vertical Kana repeat marks (3031..3035) make no sense<br>
&gt;&gt; in IDN&#39;s, particularly since they will certainly be forced<br>
&gt;&gt; into horizontal display contexts, where they could accomplish<br>
&gt;&gt; nothing but introduce mischief and confusion.<br>
&gt;&gt;<br>
&gt;<br>
&gt; This, &quot;... since they will certainly be forced into horizontal display<br>
&gt; contexts ...&quot; is just what I ment when attempting to discuss what I<br>
&gt; called at the time (SF +/- some) the &quot;linearization&quot; of descending<br>
&gt; script, Arabic script in particular. I&#39;m also concerned about<br>
&gt; non-Cyrillic Mongolian, which is vertical, for similar reasons.<br>
&gt;<br>
&gt; The point I was attempting to make earlier (SF +/-), circa TATWEEL, is<br>
&gt; that a requirement for single baseline script doesn&#39;t arise from a<br>
&gt; registrar requirement. It may arise elsewhere, but if we can&#39;t state<br>
&gt; where the requirement comes from, it doesn&#39;t exist, and where a<br>
&gt; vertical<br>
&gt; script uses vertical character sequence conventions, such as iteration<br>
&gt; marks, the rational for action can&#39;t be &quot;it doesn&#39;t work<br>
&gt; horizontally&quot;.<br>
&gt;<br>
&gt; I&#39;m not disagreeing with Wil, and possibly Ken, only noting concern<br>
&gt; about a preference for display contexts.<br>
&gt;<br>
&gt; Eric<br>
&gt;&gt; As for U+303B VERTICAL IDEOGRAPHIC ITERATION MARK, it is<br>
&gt;&gt; also useless in IDN&#39;s, and I don&#39;t think it is helpful or<br>
&gt;&gt; pertinent to clutter up the CONTEXTO rules in the appendix A<br>
&gt;&gt; listing trying to come up with an appropriate rule for this.<br>
&gt;&gt;<br>
&gt;&gt; As for attempting to stand on principle that IDNA should not<br>
&gt;&gt; categorize characters as DISALLOWED unless shown to be<br>
&gt;&gt; harmful, we already crossed that bridge a long time ago<br>
&gt;&gt; by ruling 1000&#39;s of symbols as DISALLOWED on general<br>
&gt;&gt; principle, even though they are less problematical than<br>
&gt;&gt; these vertical display characters.<br>
&gt;&gt;<br>
&gt;&gt; And finally, there is no good reason whatsoever why U+303B<br>
&gt;&gt; should be CONTEXTO (and have that stand as some kind of<br>
&gt;&gt; precedent that we can&#39;t reverse to make it DISALLOWED<br>
&gt;&gt; in the table), when all these other, more problematical<br>
&gt;&gt; vertical form characters are sitting in the table as PVALID<br>
&gt;&gt; and not CONTEXTO. So from the point of view of<br>
&gt;&gt; consistency and minimal confusion for implementers,<br>
&gt;&gt; the best choice is to make the lot DISALLOWED and be done<br>
&gt;&gt; with it -- *particularly* if we agree that:<br>
&gt;&gt;<br>
&gt;&gt; &quot;Sane registry policy everywhere will still probably set this to<br>
&gt;&gt; registry-disallowed.&quot;<br>
&gt;&gt;<br>
&gt;&gt; --Ken<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;&gt; I think the following should be DISALLOWED:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; U+3031: Lm: VERTICAL KANA REPEAT MARK<br>
&gt;&gt;&gt; U+3032: Lm: VERTICAL KANA REPEAT WITH VOICED SOUND MARK<br>
&gt;&gt;&gt; U+3033: Lm: VERTICAL KANA REPEAT MARK UPPER HALF<br>
&gt;&gt;&gt; U+3034: Lm: VERTICAL KANA REPEAT WITH VOICED SOUND MARK UPPER HALF<br>
&gt;&gt;&gt; U+3035: Lm: VERTICAL KANA REPEAT MARK LOWER HALF<br>
&gt;&gt;&gt; U+303B: Lm: VERTICAL IDEOGRAPHIC ITERATION MARK<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Mainly because U+3033 looks like protocol character (forward slash)<br>
&gt;&gt;&gt; and thus harmful IMO. Since this is a group of characters with<br>
&gt;&gt;&gt; related<br>
&gt;&gt;&gt; usage, and that Yoneya-san, Martin Dürst and John suggested that<br>
&gt;&gt;&gt; they<br>
&gt;&gt;&gt; should be disallowed:<br>
&gt;&gt;&gt;  <a href="http://www.alvestrand.no/pipermail/idna-update/2009-April/004398.html" target="_blank">http://www.alvestrand.no/pipermail/idna-update/2009-April/004398.html</a><br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; =wil<br>
&gt;&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; Idna-update mailing list<br>
&gt;&gt; <a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
&gt;&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; Idna-update mailing list<br>
&gt; <a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
<br>
_______________________________________________<br>
Idna-update mailing list<br>
<a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
</div></div></blockquote></div><br>