<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'>
O.k. but of course many people's dialects are mixed or multiple:<BR><A href="http://www4.uwm.edu/FLL/linguistics/dialect/maps.html">http://www4.uwm.edu/FLL/linguistics/dialect/maps.html</A><BR>
&nbsp;<BR>
(mine is; thus yielding multiple pronunciations of some words, which might or might not be register-dependent)<BR>
&nbsp;<BR>
But yes, sure, the more subtags the better because storage is getting better; we can store all this information.&nbsp; But sometimes it's impossible to identify a particular dialect.<BR>
&nbsp;<BR>
--C. E. Whitehead<BR>
<A href="mailto:cewcathar@hotmail.com">cewcathar@hotmail.com</A><BR>
&nbsp;<BR>
<BR><BR>&gt; <BR>&gt; On 3 Jan 2008, at 19:33, Karen Broome wrote:<BR>&gt; <BR>&gt; &gt; Is it simply up to the user to decide whether to use regional or <BR>&gt; &gt; variant tagging? Or should some guidelines be written to indicate a <BR>&gt; &gt; preference for variant tagging over regional tagging if both exist?<BR>&gt; <BR>&gt; <BR>&gt; I'd like to second the call for some guidelines to be widely <BR>&gt; disseminated. I am a web developer and would like to see all of the <BR>&gt; web tagged (correctly!) with language data.<BR>&gt; <BR>&gt; My own opinion is that using country codes to define dialects is <BR>&gt; flawed. When borders change, Czechoslovakia splits in two, Germany <BR>&gt; reunifies, etc, then all the old country codes become obsolete even <BR>&gt; though linguistically nothing has changed. When populations are <BR>&gt; displaced they take their language with them.<BR>&gt; <BR>&gt; I feel that all dialects should have their own subtags, not just the <BR>&gt; ones that partizan individuals propose. As a great example, there's a <BR>&gt; subtag for en-scouse but not one for yorkshire, geordie or brummie, <BR>&gt; because the guy that submitted the scouse request has a vested <BR>&gt; interest in his own dialect, and nobody has bothered to register the <BR>&gt; others. The distinction between en-US and en-GB is mainly an <BR>&gt; orthographic one. I say this because en-US represents a cluster of <BR>&gt; dialects and accents, with a unified orthography, and en-GB represents <BR>&gt; a cluster of accents and dialects (some overlapping with en-US), but a <BR>&gt; different orthography. Thus en-GB/US is pretty useless to people who <BR>&gt; are tagging audio data, but quite useful to those tagging written data.<BR>&gt; I believe that having a subtag registered is at present too difficult <BR>&gt; (requirement for dictionaries!? what if it's mostly just an accent <BR>&gt; with only phonemic changes relative to surrounding accents). A <BR>&gt; relaxation of the barriers would lead to more de facto recognised <BR>&gt; dialects being available to choose from.<BR>&gt; <BR>&gt; As an example, things like the supposedly "British English" speech <BR>&gt; synthesizer voices on my computer (which the OS processes using the <BR>&gt; tag "en_GB" from the voice's property list) sound nothing like most of <BR>&gt; the accents of the United Kingdom, they would be better marked as "en- <BR>&gt; received" or similar.<BR>&gt; <BR>&gt; Consider if you will a speech synthesizer trying to render a website <BR>&gt; with the following:<BR>&gt; &lt;dialog&gt;<BR>&gt; &lt;dt&gt;George Bush<BR>&gt; &lt;dd lang="en-US-cowboy"&gt;Now that's what I call a stonkin' good supper!<BR>&gt; &lt;dt&gt;British Ambassador<BR>&gt; &lt;dd lang="en-GB-received"&gt;Yes, indeed sir. That would appear to be the <BR>&gt; case.<BR>&gt; &lt;/dialog&gt;<BR>&gt; <BR>&gt; The synth has available half a dozen male voices variously described <BR>&gt; as "en-US" and "en-GB" it would probably not render the dialogue <BR>&gt; closely to the author's intentions, but if those voice descriptions <BR>&gt; could be "en-general", "en-cowboy", "en-drawl", "en-received", "en- <BR>&gt; westcountry" and "en-estuary", then the synth would have far more <BR>&gt; freedom to select an appropriate voice to use.<BR>&gt; <BR>&gt; I'm sure we can all agree on commonly recognised dialects for English, <BR>&gt; as it is a first langauge for many people on this list, and familiar <BR>&gt; for many others. For other languages compiling a list might involve <BR>&gt; asking a scholar for suggestions.<BR>&gt; <BR>&gt; <BR>&gt; Footnote:<BR>&gt; It occurred to me while writing this that perhaps a good solution <BR>&gt; would be to use country codes for written content that uses the <BR>&gt; national orthography, and dialect tags when transcribing spoken <BR>&gt; content or for audio data. You would only combine the two if you were <BR>&gt; transcribing the speech of someone with that dialect into the <BR>&gt; orthography of a country (maybe not the country of the speaker).<BR>&gt; <BR>&gt; - Nicholas Shanks.<BR><BR></body>
</html>