I'm not exactly sure what you were disagreeing with. I wrote: "One addition: there is over 35
times as much German content as Greek, so that explains part of the difference
in final-sigma vs eszed proportion. (The relative proportion per language is
important.)&quot;<br><br>So which of these three are you disagreeing with?<br><ul><li>the relative proportion of content, or <br></li><li>that it explains part of the difference, or <br></li><li>that the relative proportion per language is important.</li>
</ul>As for your point, it is a valid one: that the uptake of IDNs has varied by script. However, your figures and conclusion are not accurate; by our measurements at Google the uptake in Korea, Taiwan, and Hong Kong are each higher than Germany, and Japan is near Germany. And all of those are non-Latin. Uptake in Greece is about half that of Germany, but still respectable. So while I agree that part of the difference is the uptake, I still believe that -- as I said -- part (actually a large part) of the difference is due to the 35 : 1 ratio of web content.<br>
<br clear="all">Mark<br>
<br><br><div class="gmail_quote">2009/12/1 Tina Dam <span dir="ltr">&lt;<a href="mailto:tina.dam@icann.org">tina.dam@icann.org</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">









<div link="blue" vlink="purple" lang="EN-US">

<div>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Hi Mark, I respectfully disagree with your assessment. Also based
on the correspondence I have received over the last several years, explains
another reasons that Greek and other non-Latin based addresses are not used as
much. It is simply quite inconvenient to have IDNs at the second level in
non-Latin based scripts, then to switch script when typing the top level
portion of the address.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">For that reason IDNs at the second level in certain scripts has
not been introduced or if introduced then not considered useful.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">This is anticipated to change as we get the IDN TLDs launched.</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);">Tina</span></p>

<p class="MsoNormal"><span style="font-size: 11pt; color: rgb(31, 73, 125);"> </span></p>

<div style="border-style: solid none none; border-color: rgb(181, 196, 223) -moz-use-text-color -moz-use-text-color; border-width: 1pt medium medium; padding: 3pt 0in 0in;">

<p class="MsoNormal"><b><span style="font-size: 10pt;">From:</span></b><span style="font-size: 10pt;">
<a href="mailto:idna-update-bounces@alvestrand.no" target="_blank">idna-update-bounces@alvestrand.no</a> [mailto:<a href="mailto:idna-update-bounces@alvestrand.no" target="_blank">idna-update-bounces@alvestrand.no</a>] <b>On
Behalf Of </b>Mark Davis ?<br>
<b>Sent:</b> Tuesday, December 01, 2009 3:23 PM<br>
<b>To:</b> Erik van der Poel<br>
<b>Cc:</b> Shawn Steele; Patrik Fältström; Harald Alvestrand;
<a href="mailto:idna-update@alvestrand.no" target="_blank">idna-update@alvestrand.no</a>; lisa Dusseault; Alexander Mayrhofer; Martin J.
Dürst; Vint Cerf<br>
<b>Subject:</b> Re: The real issue: interopability, and a proposal (Was:
Consensus Call on Latin Sharp S and Greek Final Sigma)</span></p>

</div><div><div></div><div class="h5">

<p class="MsoNormal"> </p>

<p class="MsoNormal" style="margin-bottom: 12pt;">One addition: there is over 35
times as much German content as Greek, so that explains part of the difference
in final-sigma vs eszed proportion. (The relative proportion per language is
important.)<br>
<br clear="all">
Mark<br>
<br>
</p>

<div>

<p class="MsoNormal">2009/12/1 Erik van der Poel &lt;<a href="mailto:erikv@google.com" target="_blank">erikv@google.com</a>&gt;</p>

<p class="MsoNormal">I ran the program again today, and Eszett is being used a
bit more now<br>
than it was last year.<br>
<br>
2009-11-28<br>
1,253,099,703 documents<br>
88,712,912,831 links<br>
8,981 Eszett in host name in link 0.00001%<br>
<a href="http://furz-grosserfurz.de" target="_blank">furz-großerfurz.de</a><br>
<a href="http://www.bussgeldexperten.de" target="_blank">www.bußgeldexperten.de</a><br>
<a href="http://www.metzgerei-gassner.de" target="_blank">www.metzgerei-gaßner.de</a><br>
<br>
2008-11-19<br>
819,600,672 documents<br>
49,904,513,188 links<br>
2,739 Eszett in host name in link 0.0000055%<br>
<a href="http://www.rtc-grossefehn.de" target="_blank">www.rtc-großefehn.de</a><br>
<a href="http://www.mein-fussballclub.de" target="_blank">www.mein-fußballclub.de</a><br>
<a href="http://www.dermassanzug.com" target="_blank">www.dermaßanzug.com</a><br>
<br>
2006-11-27<br>
889,759,121 documents<br>
1,973 Eszett in host name in document URL 0.00022%<br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<br>
All 3 of the samples were &quot;high value&quot; documents in our index. The<br>
2006 sample looked for Eszett in the host name in the URL of the<br>
document (rather than links inside the document). It is no longer<br>
possible to find Eszett in the URLs of our documents because they are<br>
now all mapped to &quot;ss&quot;. So the 2006 sample cannot really be compared<br>
with the others because the URL of a document always contains a host<br>
name, while a link inside a document might be a relative URL (without<br>
a host name).<br>
<br>
The Final Sigma has not grown as much:<br>
<br>
2009-11-28<br>
305 final sigma in host name in link<br>
0.00000034%<br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<br>
2008-11-19<br>
138 final sigma in host name in link<br>
0.00000028%<br>
<a href="http://www.xn--mxacja3bxaqb.gr" target="_blank">www.ταβερνες.gr</a><br>
<a href="http://www.xn--owa9dlitap4c.gr" target="_blank">www.ελληναΐς.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<span style="color: rgb(136, 136, 136);"><br>
Erik</span></p>

<div>

<div>

<p class="MsoNormal"><br>
On Tue, Dec 1, 2009 at 11:49 AM, Mark Davis ☕ &lt;<a href="mailto:mark@macchiato.com" target="_blank">mark@macchiato.com</a>&gt; wrote:<br>
&gt; It is approximately 60, as you computed. The trillion figure was in a
public<br>
&gt; posting from July 2008, which is why we can quote it.<br>
&gt;<br>
&gt; Mark<br>
&gt;<br>
&gt;<br>
&gt; 2009/12/1 Harald Alvestrand &lt;<a href="mailto:harald@alvestrand.no" target="_blank">harald@alvestrand.no</a>&gt;<br>
&gt;&gt;<br>
&gt;&gt; Mark Davis ☕ wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; As far as Harald&#39;s back-of-the-envelope calculations go, they
present a<br>
&gt;&gt;&gt; very inaccurate picture of the scale. Here are some more exact
figures for<br>
&gt;&gt;&gt; that data.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;   1. 819,600,672    = sample size of documents<br>
&gt;&gt;&gt;   2. 5,000    = links with eszed in the sample<br>
&gt;&gt;&gt;   3. 1,000,000,000,000    = total documents in
index (2008)<br>
&gt;&gt;&gt;   4. 1,220    = scaling factor (= total docs /
sample size)<br>
&gt;&gt;&gt;   5. 6,100,532    = estimated total links with
eszed (= scaling *<br>
&gt;&gt;&gt;      sample eszed links)<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Even this has to be taken with a certain grain of salt, since (a)
it is<br>
&gt;&gt;&gt; assuming that the sample is representative (although we have
reasonable<br>
&gt;&gt;&gt; confidence in that), and (b) it doesn&#39;t weight the
&quot;importance&quot; of the links<br>
&gt;&gt;&gt; (in terms of the number of times they are followed), and (c) this data
was<br>
&gt;&gt;&gt; collected back in Nov 2008, so we&#39;ve had another year of growth
since then.<br>
&gt;&gt;<br>
&gt;&gt; I obviously need a bigger envelope :-) - I didn&#39;t think we had one<br>
&gt;&gt; trillion documents in the 2008 index.<br>
&gt;&gt;<br>
&gt;&gt; One missing number: how many links per document?<br>
&gt;&gt;<br>
&gt;&gt; Obviously #eszed links / #documents can&#39;t be the basis of the 0.00001%<br>
&gt;&gt; figure that Erik quoted, because 5000/819600672 = 0.00061005%, not
0.00001%,<br>
&gt;&gt; which is a factor of 60 larger, but if we estimate 60 links per
document,<br>
&gt;&gt; the 0.00001% fits nicely as the percentage of links that contain
eszed.<br>
&gt;&gt;<br>
&gt;&gt;              Harald<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
&gt;</p>

</div>

</div>

<div>

<div>

<p class="MsoNormal">&gt; _______________________________________________<br>
&gt; Idna-update mailing list<br>
&gt; <a href="mailto:Idna-update@alvestrand.no" target="_blank">Idna-update@alvestrand.no</a><br>
&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update" target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
&gt;<br>
&gt;</p>

</div>

</div>

</div>

<p class="MsoNormal"> </p>

</div></div></div>

</div>


</blockquote></div><br>