I agree.<br><br clear="all">Mark<br>
<br><br><div class="gmail_quote">On Fri, Apr 10, 2009 at 08:24, John C Klensin <span dir="ltr">&lt;<a href="mailto:klensin@jck.com">klensin@jck.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Martin,<br>
<br>
This all makes sense.  The information that 人人、would be<br>
orthographically wrong is one of the important bits I wanted to<br>
confirm.  Based on your note and Yoneya-san&#39;s, I think we should<br>
get the iteration marks out of the CONTEXT category entirely,<br>
making the vertical ones DISALLOWED and the others that are in<br>
Lm PVALID.<br>
<br>
thanks to both you, Yoneya-san, and the others who have<br>
commented for your patience.<br>
<br>
    john<br>
<br>
<br>
--On Friday, April 10, 2009 11:24 +0900 &quot;\&quot;Martin J. Dürst\&quot;&quot;<br>
<div><div></div><div class="h5">&lt;<a href="mailto:duerst@it.aoyama.ac.jp">duerst@it.aoyama.ac.jp</a>&gt; wrote:<br>
<br>
&gt; Hello John,<br>
&gt;<br>
&gt; On 2009/04/09 19:10, John C Klensin wrote:<br>
&gt;&gt;<br>
&gt;&gt; --On Thursday, April 09, 2009 16:59 +0900 &quot;\&quot;Martin J.<br>
&gt;&gt; Dürst\&quot;&quot; &lt;<a href="mailto:duerst@it.aoyama.ac.jp">duerst@it.aoyama.ac.jp</a>&gt;  wrote:<br>
&gt;&gt;<br>
&gt;&gt;&gt; I understand that there is a desire to add some context<br>
&gt;&gt;&gt; constraints for  middle dot, but I don&#39;t understand why we<br>
&gt;&gt;&gt; need constraints for Ideographic Iteration Mark. In my<br>
&gt;&gt;&gt; opition, the context given by Yoshiro  is correct, but the<br>
&gt;&gt;&gt; chance that this character gets confused with  something else<br>
&gt;&gt;&gt; is as big or as little as any other randomly picked<br>
&gt;&gt;&gt; character, so I don&#39;t see why we would need context. Is it<br>
&gt;&gt;&gt; that this is  a punctuation character, that we can only<br>
&gt;&gt;&gt; exceptionally include  punctuation characters, and only if<br>
&gt;&gt;&gt; they have context?<br>
&gt;&gt;<br>
&gt;&gt; Middle dot (U+30FB) is a punctuation character (Po), so it is<br>
&gt;&gt; allowed only by exception and, for the reasons mentioned<br>
&gt;&gt; earlier, it makes sense to make the exception as narrow as<br>
&gt;&gt; possible.<br>
&gt;<br>
&gt; Agreed.<br>
&gt;<br>
&gt;&gt; I no longer remember why we treated U+3005 as requiring<br>
&gt;&gt; context. It is Lm in the tables, which brings it under<br>
&gt;&gt; Category A (Section 2.1) in Tables, so, absent other<br>
&gt;&gt; considerations, it ought to default to PVALID.  I note that<br>
&gt;&gt; there are several other iteration marks that are just PVALID.<br>
&gt;&gt; I image that U+3005 was called out for special treatment<br>
&gt;&gt; because the Unicode Standard identifies it as part of a &quot;CJK<br>
&gt;&gt; Symbols and Punctuation&quot; block (see page 830 of TUS 5.0). Its<br>
&gt;&gt; presence in the Contextual rule list may consequently be an<br>
&gt;&gt; artifact of the time in which we were still treating the<br>
&gt;&gt; Unicode block structure as significant.<br>
&gt;&gt;<br>
&gt;&gt; On a fast scan, there doesn&#39;t seem to be anything in<br>
&gt;&gt; Stringprep that calls it out for special treatment.  At least<br>
&gt;&gt; at the registry level, none of the iteration marks appear to<br>
&gt;&gt; be Preferred Variants for Chinese (see<br>
&gt;&gt; <a href="http://www.iana.org/domains/idn-tables/tables/cn_zh-cn_4.0.ht" target="_blank">http://www.iana.org/domains/idn-tables/tables/cn_zh-cn_4.0.ht</a><br>
</div></div>&gt;&gt; ml or the identical table for .TW), some, but not all, of them<br>
<div class="im">&gt;&gt; appear in the .JP Preferred Variants list of Japanese (see<br>
&gt;&gt; <a href="http://www.iana.org/domains/idn-tables/tables/jp_ja-jp_1.2.ht" target="_blank">http://www.iana.org/domains/idn-tables/tables/jp_ja-jp_1.2.ht</a><br>
</div>&gt;&gt; ml). .KR has filed only a Hangul table with IANA, so I can<br>
<div><div></div><div class="h5">&gt;&gt; make no inferences there.<br>
&gt;&gt;<br>
&gt;&gt; So, if I can ask your indulgence to satisfy my curiosity and<br>
&gt;&gt; slightly reduce my ignorance,<br>
&gt;&gt;<br>
&gt;&gt;      (i) Are these iteration marks used with Japanese only<br>
&gt;&gt;      (out of the CJK script group)?<br>
&gt;<br>
&gt; I don&#39;t remember to have seen it in Chinese, and I have seen<br>
&gt; explicit character repetition in Chinese, but I rarely look at<br>
&gt; Chinese (and don&#39;t read it), so that doesn&#39;t mean too much.<br>
&gt; But<br>
&gt; <a href="http://en.wiktionary.org/wiki/Category:Japanese-only_CJKV_Char" target="_blank">http://en.wiktionary.org/wiki/Category:Japanese-only_CJKV_Char</a><br>
&gt; acters<br>
&gt; also lists it as a Japanese-only character.<br>
&gt;<br>
&gt;&gt;      (ii) How are they used?   It may be just an incorrect<br>
&gt;&gt;      inference from terminology, but, if I saw something<br>
&gt;&gt;      called an &quot;iteration mark&quot;, I&#39;d normally expect it to be<br>
&gt;&gt;      associated with a numeral that would tell me how many<br>
&gt;&gt;      copies of an associated character or string to infer.<br>
&gt;<br>
&gt; That&#39;s thinking too far. 々 (U+3005) is simply used to repeat<br>
&gt; the previous character. So 人 (hito) means man, person and<br>
&gt; 人々 (hitobito, note the assimilation from h to b) means<br>
&gt; men, people (only used in certain cases, in general, 人 can<br>
&gt; be used for plural, too. 人々 may have originally be written<br>
&gt; 人人、but these days, that would be orthographically wrong.<br>
&gt; There is no device e.g. for a threefold repetition, which is<br>
&gt; not too surprising, because such repetitions don&#39;t occur in<br>
&gt; practice. See also <a href="http://en.wiktionary.org/wiki/%E3%80%85" target="_blank">http://en.wiktionary.org/wiki/々</a>.<br>
&gt;<br>
&gt;&gt;      (iii) Is there any possible reason why some of the<br>
&gt;&gt;      iteration marks should be treated as PVALID and others<br>
&gt;&gt;      should be CONTEXTO?<br>
&gt;<br>
&gt; Not as far as I can immagine. There are good reasons for<br>
&gt; having some PVALID, and there are good reasons for having<br>
&gt; others disallowed, but not CONTEXTO.<br>
&gt;<br>
&gt;&gt;      (iv) If &quot;vertical&quot; really means that, is U+303B needed<br>
&gt;&gt;      in domain names at all?  Are they ever, in practice,<br>
&gt;&gt;      written vertically?  I note that the .JP table<br>
&gt;&gt;      (reference above) does not permit that character at all.<br>
&gt;&gt;      If it is not used, not useful, and could cause<br>
&gt;&gt;      conceptual confusion (can it?), then should it be<br>
&gt;&gt;      DISALLOWED rather than PVALID or CONTEXTO?<br>
&gt;<br>
&gt; I think Yoshiro already said that the vertical ones are not<br>
&gt; needed and should be disallowed. That applies to all of<br>
&gt; U+3031-3035. They are needed only used in vertical text, and<br>
&gt; therefore don&#39;t work for domain names (which are usually<br>
&gt; horizontal).<br>
&gt;<br>
&gt;<br>
&gt;&gt; I think that this takes us in the direction of removing U+3005<br>
&gt;&gt; and U+303B from the exception list, letting them fall into<br>
&gt;&gt; PVALID because of their Lm classification (unless U+303B<br>
&gt;&gt; should be DISALLOWED as discussed above).  But, to the extent<br>
&gt;&gt; possible, it would be good to understand a bit more about the<br>
&gt;&gt; situation first, even though this takes us rather far into the<br>
&gt;&gt; character-by-character analysis that we try to avoid.<br>
&gt;<br>
&gt; If we don&#39;t want to go too far with character-by-character<br>
&gt; analysis, we can leave the business of excluding U+3031-3035<br>
&gt; to registries.<br>
&gt;<br>
&gt; Regards,    Martin.<br>
<br>
<br>
<br>
<br>
</div></div><div><div></div><div class="h5">_______________________________________________<br>
Idna-update mailing list<br>
<a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
</div></div></blockquote></div><br>