Hoi,<br>A huge investment is needed in order to identify the language
content is in. The best place to for the identification and inclusion
of correct language tagging is at the source. Software is currently
REALLY bad at this, particularly for the less and least resourced
languages. I fear that this will not improve unless actions are taken
to improve language tagging at the source.<br>
<br>It is organisations like Google, Microsoft, Yahoo that can make a
difference. When they announce for their global search engines that
they will positively discriminate in favour of content that is properly
tagged as to its language, they will find that this will create a HUGE
incentive to publishers to ensure that their tags are set correctly. It
will put pressure on the developers of software to make sure that
recognised linguistic entities will be supported. And it will put
pressure on the standard organisations to create labels for all the
missing languages, dialects and orthographies. <br>
<br>When this happens in 2008, the Unesco year of languages,&nbsp; it would be a great thing.<br><br>Thanks,<br><font color="#888888">&nbsp;&nbsp;&nbsp; Gerard</font><br><br><div class="gmail_quote">On Jan 25, 2008 5:30 PM, Addison Phillips &lt;<a href="mailto:addison@yahoo-inc.com">addison@yahoo-inc.com</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hm... well, while we&#39;re making sweeping generalizations... *English*<br>typically isn&#39;t tagged or tagged correctly today either. Although there<br>
is evidence of improvement in this area. Hopefully developers will pay<br>attention to BCP 47 and incorporate the ability to tag arbitrary<br>languages into applications (I&#39;m glad that MediaWiki will).<br><br>When you say &quot;[search engines] do not support all languages&quot;, that&#39;s<br>
only partially true. It is true that the major search engines do not<br>have specific lexical analyzers and indexes for a vast number of<br>languages. However, there is pretty good support for doing proper token<br>extraction in most *scripts*. Thus your search for either Maltese or<br>
Macedonian text is likely to work.<br><br>What you can&#39;t do today is say &quot;search for text only in Maltese&quot;.<br><br>Note that adding a language isn&#39;t trivial either. For one thing, you<br>have to have a large body of well-identified, highly-representative text<br>
in that language (to build statistics) in order to detect the language<br>in the first place.<br><br>Addison<br><br>--<br>Addison Phillips<br>Globalization Architect -- Yahoo! Inc.<br>Chair -- W3C Internationalization Core WG<br>
<br>Internationalization is an architecture.<br>It is not a feature.<br><div class="Ih2E3d"><br><br>Gerard Meijssen wrote:<br>&gt; Hoi,<br>&gt; Google does not support all languages. It does not support Maltese or<br>&gt; Macedonian. Both official languages of European countries. As<br>
&gt; applications typically only support the languages that they have been<br>&gt; localised for, they do not allow you to indicate that your language is<br>&gt; for instance Maltese, Lower Saxon, Piedmontese ... Consequently texts,<br>
&gt; materials in those languages will not be tagged by their applications<br>&gt; and it will be hard to find content in those languages.<br>&gt;<br>&gt; It is for this reason why I find it vital for the languages and<br>
&gt; orthographies supported by MediaWiki to have a proper code. By making<br>&gt; the code explicitly part of the package, we can get content out on the<br>&gt; Internet that is properly coded. Without it, content will be genuinely<br>
&gt; hard to find.<br>&gt; Thanks,<br>&gt; &nbsp; &nbsp; &nbsp;Gerard<br>&gt;<br>&gt; On Jan 25, 2008 12:02 PM, Frank Ellermann &lt;<a href="mailto:nobody@xyzzy.claranet.de">nobody@xyzzy.claranet.de</a><br></div><div class="Ih2E3d">&gt; &lt;mailto:<a href="mailto:nobody@xyzzy.claranet.de">nobody@xyzzy.claranet.de</a>&gt;&gt; wrote:<br>
&gt;<br>&gt; &nbsp; &nbsp; David Starner wrote:<br>&gt;<br>&gt; &nbsp; &nbsp; &nbsp;&gt; Why does it matter whether it&#39;s en-caesarea or ang-caesarea<br>&gt; &nbsp; &nbsp; &nbsp;&gt; except to linguists? Those details should be hidden from<br>&gt; &nbsp; &nbsp; &nbsp;&gt; end users and are in most cases.<br>
&gt;<br>&gt; &nbsp; &nbsp; I have &quot;en-GB&quot;, &quot;en&quot;, and &quot;en-us&quot; in the language preferences<br>&gt; &nbsp; &nbsp; of my browser, and with a &quot;quick locale switcher&quot; tool I can<br>&gt; &nbsp; &nbsp; pick what I want for tests. &nbsp;So far my browser, this tool, and<br>
&gt; &nbsp; &nbsp; I never considered to add &quot;ang&quot; or &quot;sxu&quot;. &nbsp;I had to configure<br>&gt; &nbsp; &nbsp; &quot;frr&quot; manually for tests (no effect so far, e.g. &quot;frr&quot; isn&#39;t<br>&gt; &nbsp; &nbsp; in the various lists of languages supported by Google).<br>
&gt;<br>&gt; &nbsp; &nbsp; It depends on what the requester wants. &nbsp;If it&#39;s for research<br>&gt; &nbsp; &nbsp; or other &quot;any unique tag will do&quot; purposes a linguistically<br>&gt; &nbsp; &nbsp; correct but otherwise obscure prefix is fine.<br>
&gt;<br>&gt; &nbsp; &nbsp; Clearly using &quot;ang&quot; (or &quot;sxu&quot;) for a research project showing<br>&gt; &nbsp; &nbsp; that this is actually wrong would be odd. &nbsp;OTOH if it is meant<br>&gt; &nbsp; &nbsp; to help all speakers of the dialect that their Web content is<br>
&gt; &nbsp; &nbsp; &quot;supported&quot; in various ways, then using less obscure prefixes<br>&gt; &nbsp; &nbsp; &quot;en&quot; (or &quot;de&quot;) is better.<br>&gt;<br>&gt; &nbsp; &nbsp; &nbsp;Frank<br>&gt;<br>&gt; &nbsp; &nbsp; _______________________________________________<br>
&gt; &nbsp; &nbsp; Ietf-languages mailing list<br></div>&gt; &nbsp; &nbsp; <a href="mailto:Ietf-languages@alvestrand.no">Ietf-languages@alvestrand.no</a> &lt;mailto:<a href="mailto:Ietf-languages@alvestrand.no">Ietf-languages@alvestrand.no</a>&gt;<br>
<div class="Ih2E3d">&gt; &nbsp; &nbsp; <a href="http://www.alvestrand.no/mailman/listinfo/ietf-languages" target="_blank">http://www.alvestrand.no/mailman/listinfo/ietf-languages</a><br>&gt;<br>&gt;<br>&gt;<br></div>&gt; ------------------------------------------------------------------------<br>
<div><div></div><div class="Wj3C7c">&gt;<br>&gt; _______________________________________________<br>&gt; Ietf-languages mailing list<br>&gt; <a href="mailto:Ietf-languages@alvestrand.no">Ietf-languages@alvestrand.no</a><br>
&gt; <a href="http://www.alvestrand.no/mailman/listinfo/ietf-languages" target="_blank">http://www.alvestrand.no/mailman/listinfo/ietf-languages</a><br><br><br></div></div></blockquote></div><br>