<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:st1="urn:schemas-microsoft-com:office:smarttags" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]--><o:SmartTagType
 namespaceuri="urn:schemas-microsoft-com:office:smarttags" name="PostalCode"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="State"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="City"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="country-region"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="place"/>
<!--[if !mso]>
<style>
st1\:*{behavior:url(#default#ieooui) }
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:blue;
        text-decoration:underline;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:Arial;
        color:navy;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.25in 1.0in 1.25in;}
div.Section1
        {page:Section1;}
 /* List Definitions */
 @list l0
        {mso-list-id:433407281;
        mso-list-template-ids:1007566148;}
ol
        {margin-bottom:0in;}
ul
        {margin-bottom:0in;}
-->
</style>
</head>
<body lang=EN-US link=blue vlink=blue>
<div class=Section1>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>Adopting 1 would mean adopting generally
across all of ISO 639-3: all entries of individual-language scope encompass
corresponding historic varieties. But then, note that historic varieties are
relevant only in cases of languages with a long literary tradition that is
preserved. For instance, there may have been an old Naskapi that is distinct
from the modern descendent, but there never have been and never will be any
records in this putative language, so there is zero need for an identifier that
encompasses it.<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>(Btw, please note: we do *<b><span
style='font-weight:bold'>not</span></b>* code reconstructed protolanguages. ISO
639-3 is explicit about that. So please don’t anybody suggest we’d be coding
proto-Naskapi.)<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>So really we’re just talking about some
limited set of cases with a literary tradition. <o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>Note that we’re also only talking about
cases in which languages were well-enough developed to maintain a single
identify over several hundred years. That’s what distinguishes a “historic”
language from an “extinct” language. For instance, there are historic documents
in a pre-Columbian Mixtec variety, but that language identity is not preserved
by one specific modern Mixtec variety. And I reject the notion that
pre-Columbian Mixtec together with all the modern Mixtec varieties is a
macrolanguage unless someone makes the case that there’s a user scenario in
which it is appropriate to treat all those varieties as one language.<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>So the number of relevant cases is fairly
constrained. I don’t know just how many there would be, but it’s going to be a
small fraction of all modern languages for which this is relevant.<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>I have a concern with 1 that it would detract
from interoperability, for the kinds of reasons Anthony mentions. There is a
very large amount of usage in which “eng” is intended to mean specifically
modern English, and a very large amount of usage in which “ces” is intended to
mean specifically modern Czech. I don’t see who it would help to decide that
these IDs encompass Old English and Old Czech respectively: the average modern-language
user isn’t likely going to be cataloguing content in Old English and Old Czech,
and they certainly aren’t going to be helped by having queries return records
in the historic varieties. As for the specialist, they certainly don’t want to
catalog content as all “eng” and “ces”, as Anthony has made clear. The only
scenario in which maybe someone is helped is when the specialist wants a query
to return records for all historic varieties. I don’t see why they can’t use a Boolean
operator for that, but even if there was enough need for a single ID, I wouldn’t
be inclined to use “eng’ and “ces” for that purpose: that would be helping the 0.01%
scenario at the detriment of 99.99% of users.<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>Thus, I’m inclined towards 2. There is
certainly willingness in general on the part of the ISO 639 JAC to code historic
languages, so I have no doubt that IDs for things like Old Czech etc. would be
provided so long as the need is clear and there’s a sense that the historic
boundaries deemed appropriate by philologists, research librarians, etc. are
appropriate.<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'>Peter<o:p></o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>
<div style='border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt'>
<div>
<div class=MsoNormal align=center style='text-align:center'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>
<hr size=2 width="100%" align=center tabindex=-1>
</span></font></div>
<p class=MsoNormal><b><font size=2 face=Tahoma><span style='font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font size=2
face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma'> Mark Davis
[mailto:mark.davis@icu-project.org] <br>
<b><span style='font-weight:bold'>Sent:</span></b> Thursday, February 15, 2007
8:55 AM<br>
<b><span style='font-weight:bold'>To:</span></b> Anthony Aristar<br>
<b><span style='font-weight:bold'>Cc:</span></b> LTRU Working Group;
ietf-languages@alvestrand.no<br>
<b><span style='font-weight:bold'>Subject:</span></b> [Ltru] Re: Ietf-languages
Digest, Vol 50, Issue 15</span></font><o:p></o:p></p>
</div>
<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p> </o:p></span></font></p>
<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>Your quotation below omits the true author, and may leave the
impression that I wrote a number of paragraphs that I do not agree with and did
not write. I only wrote "Assume that old Czech ..." -- someone else
wrote the "But is this a real problem...." <br>
<br>
> Mark Davis wrote:<br>
><br>
> > Assume that old Czech is as different from modern as fro is from fr.<br>
><br>
> But is this a real problem?  How much total literature is
written<br>
...<br>
<br>
That being said, there are two models that ISO could be using. <o:p></o:p></span></font></p>
<ol start=1 type=1>
 <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
     mso-list:l0 level1 lfo1'><b><font size=3 face="Times New Roman"><span
     style='font-size:12.0pt;font-weight:bold'>Overlapping. </span></font></b>'eng'
     means any English, modern or historic. 'ang' means specifically Old
     English, a subset of 'eng'. 'ces' means any Czech. There is no tag
     specifically for Old Czech. <o:p></o:p></li>
</ol>
<ol start=1 type=1>
 <ol start=1 type=1>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>so I could tag Beowulf with 'ang' or 'eng', but
      Shakespeare, Austen, and Robin Williams only with 'eng'.<o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>Smil Flaška z Pardubic and Václav Havel are both
      tagged with 'ces'. <o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>Requests for BCP 47 variant tags for
      Shakespearean English (en-SHAKESPR) or old Czech (cs-OLDCZECH) would be
      legitimate.<o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>A request for a variant tag for only modern English
      (en-MODENGL), thus excluding Old English, would be legitimate. <o:p></o:p></span></font></li>
 </ol>
</ol>
<ol start=2 type=1>
 <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
     mso-list:l0 level1 lfo1'><b><font size=3 face="Times New Roman"><span
     style='font-size:12.0pt;font-weight:bold'>Disjoint. </span></font></b>'eng'
     means only modern English, 'ang' means Old English, 'ces' means only
     modern <st1:country-region w:st="on"><st1:place w:st="on">Czech.</st1:place></st1:country-region>
     There is no tag at all (currently) for Old Czech. <o:p></o:p></li>
</ol>
<ol start=2 type=1>
 <ol start=1 type=1>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>so I could tag Beowulf with 'ang' only.<o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>and there is no valid current code for tagging
      for Smil Flaška z Pardubic<o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>A request for BCP 47 variant tags for
      Shakespearean English (en-SHAKESPR) would be legitimate <o:p></o:p></span></font></li>
  <li class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
      auto;mso-list:l0 level2 lfo1'><font size=3 face="Times New Roman"><span
      style='font-size:12.0pt'>A request for a registered old Czech language
      tag (oldczech) would be legitimate. (However "primary languages are
      strongly RECOMMENDED for registration with ISO 639, and proposals
      rejected by ISO 639/RA will be closely scrutinized before they are
      registered with IANA." )<o:p></o:p></span></font></li>
 </ol>
</ol>
<p class=MsoNormal style='margin-bottom:12.0pt'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>I don't think they are
using model number one, but we need to find out.<br>
<br>
Mark<o:p></o:p></span></font></p>
<div>
<p class=MsoNormal><span class=gmailquote><font size=3 face="Times New Roman"><span
style='font-size:12.0pt'>On 2/15/07, <b><span style='font-weight:bold'>Anthony
Aristar</span></b> <<a href="mailto:aristar@linguistlist.org">
aristar@linguistlist.org</a>> wrote:</span></font></span><o:p></o:p></p>
<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>With all due respect, this seems like a very odd discussion from my <br>
perspective  as a linguistics professor.  The discussion
seems to<br>
presuppose that all that matters is whether Microsoft is going to one<br>
day produce a version of Word in Middle High German or Old English, or<br>
how many texts exist in a language. <br>
<br>
But the ISO 639 codes are used for much more than this.  In
particular,<br>
they are used to ensure interoperability, allowing material of the same<br>
linguistic nature to be found in searches, and to be compared using the <br>
linguistic ontologies that are now being developed.  If I am a
scholar<br>
searching for texts in Old English (or Old High German, for that<br>
matter) and everyone has been cavalier enough to code such material<br>
with eng and deu, what the search engines return will be utterly <br>
useless to me.  I am going to be flooded with such a quantity of<br>
material in Modern English and Modern German that searching through it<br>
will be essentially impossible.<br>
<br>
So if you really believe that it doesn't matter if you code English <br>
material as eng, whatever its period, what you're really saying is that<br>
you don't really care about interoperability, and that you don't really<br>
care about scholarship.<br>
<br>
                **************************************
<br>
Anthony Aristar, Director, Institute for Language Information & Technology<br>
                  
Professor of Linguistics<br>
Moderator, LINGUIST              
Principal Investigator, EMELD Project<br>
Linguistics Program <br>
Dept. of
English                  <a
href="mailto:aristar@linguistlist.org">aristar@linguistlist.org</a><br>
Eastern Michigan
University            2000
Huron River Dr, Suite 104<br>
<st1:place w:st="on"><st1:City w:st="on">Ypsilanti</st1:City>, <st1:State
 w:st="on">MI</st1:State> <st1:PostalCode w:st="on">48197</st1:PostalCode></st1:place><br>
<st1:country-region w:st="on"><st1:place w:st="on">U.S.A.</st1:place></st1:country-region><br>
<br>
URL: <a href="http://linguistlist.org/aristar/">http://linguistlist.org/aristar/</a><br>
                **************************************<br>
<br>
> Mark Davis wrote:<br>
><br>
> > Assume that old Czech is as different from modern as fro is from fr. <br>
><br>
> But is this a real problem?  How much total literature is
written<br>
> and available in different variations of Czech?  My prejudice
says<br>
> that as a nation with a language and literature of its own, Czech <br>
> is about as young as Finnish, Norwegian or Serbian, i.e. 19th<br>
> century.  Can you give any concrete examples when not having a<br>
> separate *code* for pre-renaissance Czech is a practical problem?<br>
> <br>
> Linguists of course have *names* for Swedish of all ages, but I<br>
> see no real use for having ISO or the IETF specify language<br>
> *codes*.  I could be wrong, but if so please enlighten and
correct<br>
> me.  Nobody is going to translate OpenOffice or Mozilla to the <br>
> language spoken by vikings (Old Norse) or the Swedish used during<br>
> the Lutheran reformation (called New Swedish, ironically).<br>
><br>
> Yes, there is now a branch of Wikipedia in Old English<br>
> ( <a href="http://ang.wikipedia.org">ang.wikipedia.org</a>), but that is a
rare exception.  I don't expect<br>
> this to happen in other languages.  Ang has now 744 articles,<br>
> compared to the 11,000 articles of the Latin Wikipedia. <br>
<br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
Ietf-languages mailing list<br>
<a href="mailto:Ietf-languages@alvestrand.no">Ietf-languages@alvestrand.no</a><br>
<a href="http://www.alvestrand.no/mailman/listinfo/ietf-languages">http://www.alvestrand.no/mailman/listinfo/ietf-languages</a><o:p></o:p></span></font></p>
</div>
<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><br>
<br clear=all>
<br>
-- <br>
Mark <o:p></o:p></span></font></p>
</div>
</div>
</body>
</html>