<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Hi Mark, I respectfully disagree with your assessment. Also based
on the correspondence I have received over the last several years, explains
another reasons that Greek and other non-Latin based addresses are not used as
much. It is simply quite inconvenient to have IDNs at the second level in
non-Latin based scripts, then to switch script when typing the top level
portion of the address.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>For that reason IDNs at the second level in certain scripts has
not been introduced or if introduced then not considered useful.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>This is anticipated to change as we get the IDN TLDs launched.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Tina<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>
idna-update-bounces@alvestrand.no [mailto:idna-update-bounces@alvestrand.no] <b>On
Behalf Of </b>Mark Davis ?<br>
<b>Sent:</b> Tuesday, December 01, 2009 3:23 PM<br>
<b>To:</b> Erik van der Poel<br>
<b>Cc:</b> Shawn Steele; Patrik Fältström; Harald Alvestrand;
idna-update@alvestrand.no; lisa Dusseault; Alexander Mayrhofer; Martin J.
Dürst; Vint Cerf<br>
<b>Subject:</b> Re: The real issue: interopability, and a proposal (Was:
Consensus Call on Latin Sharp S and Greek Final Sigma)<o:p></o:p></span></p>

</div>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal style='margin-bottom:12.0pt'>One addition: there is over 35
times as much German content as Greek, so that explains part of the difference
in final-sigma vs eszed proportion. (The relative proportion per language is
important.)<br>
<br clear=all>
Mark<br>
<br>
<o:p></o:p></p>

<div>

<p class=MsoNormal>2009/12/1 Erik van der Poel &lt;<a
href="mailto:erikv@google.com">erikv@google.com</a>&gt;<o:p></o:p></p>

<p class=MsoNormal>I ran the program again today, and Eszett is being used a
bit more now<br>
than it was last year.<br>
<br>
2009-11-28<br>
1,253,099,703 documents<br>
88,712,912,831 links<br>
8,981 Eszett in host name in link 0.00001%<br>
<a href="http://furz-grosserfurz.de" target="_blank">furz-großerfurz.de</a><br>
<a href="http://www.bussgeldexperten.de" target="_blank">www.bußgeldexperten.de</a><br>
<a href="http://www.metzgerei-gassner.de" target="_blank">www.metzgerei-gaßner.de</a><br>
<br>
2008-11-19<br>
819,600,672 documents<br>
49,904,513,188 links<br>
2,739 Eszett in host name in link 0.0000055%<br>
<a href="http://www.rtc-grossefehn.de" target="_blank">www.rtc-großefehn.de</a><br>
<a href="http://www.mein-fussballclub.de" target="_blank">www.mein-fußballclub.de</a><br>
<a href="http://www.dermassanzug.com" target="_blank">www.dermaßanzug.com</a><br>
<br>
2006-11-27<br>
889,759,121 documents<br>
1,973 Eszett in host name in document URL 0.00022%<br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<a href="http://www.uni-giessen.de" target="_blank">www.uni-gießen.de</a><br>
<br>
All 3 of the samples were &quot;high value&quot; documents in our index. The<br>
2006 sample looked for Eszett in the host name in the URL of the<br>
document (rather than links inside the document). It is no longer<br>
possible to find Eszett in the URLs of our documents because they are<br>
now all mapped to &quot;ss&quot;. So the 2006 sample cannot really be compared<br>
with the others because the URL of a document always contains a host<br>
name, while a link inside a document might be a relative URL (without<br>
a host name).<br>
<br>
The Final Sigma has not grown as much:<br>
<br>
2009-11-28<br>
305 final sigma in host name in link<br>
0.00000034%<br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<br>
2008-11-19<br>
138 final sigma in host name in link<br>
0.00000028%<br>
<a href="http://www.xn--mxacja3bxaqb.gr" target="_blank">www.ταβερνες.gr</a><br>
<a href="http://www.xn--owa9dlitap4c.gr" target="_blank">www.ελληναΐς.gr</a><br>
<a href="http://www.xn--mxadbxfgktc4bn4g.gr" target="_blank">www.γυναικολόγος.gr</a><br>
<span style='color:#888888'><br>
Erik</span><o:p></o:p></p>

<div>

<div>

<p class=MsoNormal><br>
On Tue, Dec 1, 2009 at 11:49 AM, Mark Davis ☕ &lt;<a
href="mailto:mark@macchiato.com">mark@macchiato.com</a>&gt; wrote:<br>
&gt; It is approximately 60, as you computed. The trillion figure was in a
public<br>
&gt; posting from July 2008, which is why we can quote it.<br>
&gt;<br>
&gt; Mark<br>
&gt;<br>
&gt;<br>
&gt; 2009/12/1 Harald Alvestrand &lt;<a href="mailto:harald@alvestrand.no">harald@alvestrand.no</a>&gt;<br>
&gt;&gt;<br>
&gt;&gt; Mark Davis ☕ wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; As far as Harald's back-of-the-envelope calculations go, they
present a<br>
&gt;&gt;&gt; very inaccurate picture of the scale. Here are some more exact
figures for<br>
&gt;&gt;&gt; that data.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; &nbsp; 1. 819,600,672 &nbsp; &nbsp;= sample size of documents<br>
&gt;&gt;&gt; &nbsp; 2. 5,000 &nbsp; &nbsp;= links with eszed in the sample<br>
&gt;&gt;&gt; &nbsp; 3. 1,000,000,000,000 &nbsp; &nbsp;= total documents in
index (2008)<br>
&gt;&gt;&gt; &nbsp; 4. 1,220 &nbsp; &nbsp;= scaling factor (= total docs /
sample size)<br>
&gt;&gt;&gt; &nbsp; 5. 6,100,532 &nbsp; &nbsp;= estimated total links with
eszed (= scaling *<br>
&gt;&gt;&gt; &nbsp; &nbsp; &nbsp;sample eszed links)<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Even this has to be taken with a certain grain of salt, since (a)
it is<br>
&gt;&gt;&gt; assuming that the sample is representative (although we have
reasonable<br>
&gt;&gt;&gt; confidence in that), and (b) it doesn't weight the
&quot;importance&quot; of the links<br>
&gt;&gt;&gt; (in terms of the number of times they are followed), and (c) this data
was<br>
&gt;&gt;&gt; collected back in Nov 2008, so we've had another year of growth
since then.<br>
&gt;&gt;<br>
&gt;&gt; I obviously need a bigger envelope :-) - I didn't think we had one<br>
&gt;&gt; trillion documents in the 2008 index.<br>
&gt;&gt;<br>
&gt;&gt; One missing number: how many links per document?<br>
&gt;&gt;<br>
&gt;&gt; Obviously #eszed links / #documents can't be the basis of the 0.00001%<br>
&gt;&gt; figure that Erik quoted, because 5000/819600672 = 0.00061005%, not
0.00001%,<br>
&gt;&gt; which is a factor of 60 larger, but if we estimate 60 links per
document,<br>
&gt;&gt; the 0.00001% fits nicely as the percentage of links that contain
eszed.<br>
&gt;&gt;<br>
&gt;&gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Harald<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
&gt;<o:p></o:p></p>

</div>

</div>

<div>

<div>

<p class=MsoNormal>&gt; _______________________________________________<br>
&gt; Idna-update mailing list<br>
&gt; <a href="mailto:Idna-update@alvestrand.no">Idna-update@alvestrand.no</a><br>
&gt; <a href="http://www.alvestrand.no/mailman/listinfo/idna-update"
target="_blank">http://www.alvestrand.no/mailman/listinfo/idna-update</a><br>
&gt;<br>
&gt;<o:p></o:p></p>

</div>

</div>

</div>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

</div>

</body>

</html>