<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Dec 18, 2016 at 8:07 AM, Luc Pardon <span dir="ltr"><<a href="mailto:lucp@skopos.be" target="_blank">lucp@skopos.be</a>></span> wrote:</div><div class="gmail_quote"><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">    BCP47 violates that rule big time, by packing all kind of things<br>
(script, orthography, ...) in a field that was originally intended (in<br>
HTML) to contain only the language.<br></blockquote><div><br></div><div>In fact, RFC 1766, the original incarnation of what is now BCP 47,</div><div>predates HTML and HTTP.  It was designed to have something</div><div>standard to put in the email header "Content-Language", whch was</div><div>designed to specify what language the email (as a whole) was</div><div>written in, and if it was being sent simultaneously in multiple</div><div>languages as a mixed/alternative email, to distinguish which</div><div>translation was which.  And even at that time it was understood</div><div>that language alone was too coarse-grained a category.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">   Applied to the topic under discussion, "Alice in Spanglishland" would<br>
have to be tagged with "en" at the top of the document, and the Spanish<br>
words inside the text would have to be marked up separately (i.e. "<span<br>
lang="es">caramba</span> in HTML syntax). Or the other way around, if<br>
the majority of the words are Spanish.<br></blockquote><div><br></div><div>Yes, that works well for vocabulary mixing simpliciter, but not so much</div><div>for more intimate language blends.  Consider the following bit of dog Latin:</div><div><br></div>Patres conscripti took a boat, and went to Philippi;<br>Boatum est upsettum, magno cum grandine venti.<br>Omnes drownderunt qui swim away non potuerunt.</div><div class="gmail_quote"><br><div>The lovely word _drownderunt_ has an English root, an English inflection</div><div>_ed_ that has merged with the root (in regional English people say _drownd_</div><div>for _drown_ and either _drowned_ or _drownded_ for _drowned_), and a Latin</div><div>inflection _erunt_ on top of that.  How are we to mark this up? Similarly,</div><div>see the passages in my blog post "French in all its purity" at</div><div><<a href="http://recycledknowledge.blogspot.com/2005/06/french-in-all-its-purity.html">http://recycledknowledge.blogspot.com/2005/06/french-in-all-its-purity.html</a>>.</div><div>Is the verb _bruncher_ in the code-switching example another like</div><div>_drownderunt_, or is it pure French?</div><div><br></div><div>Worse yet, what of</div><div><br></div>What is this that roareth thus?</div><div class="gmail_quote">Can it be a Motor Bus?</div><div class="gmail_quote">Yes, the smell and hideous hum</div><div class="gmail_quote">Indicat Motorem Bum!</div><div class="gmail_quote"><br></div><div class="gmail_quote">where English _bus_, itself a clipping of Latin _omnibus_ 'for all', is treated</div><div class="gmail_quote">as a pseudo-Latin stem _b_ with a nominative ending, and then used in</div><div class="gmail_quote">the accusative as _bum_?  Neither spelling checkers nor text-to-speech</div><div class="gmail_quote">will recognize _b_ as English or _um_ as Latin.</div><div class="gmail_quote"><br></div><div class="gmail_quote">(Pace Mark Davis, _downloaden_ is now clearly a German word, just like</div><div class="gmail_quote">_Standard, Tipp, Stopp, Rekord_.)</div><div class="gmail_quote"><br></div><div class="gmail_quote">-- </div><div class="gmail_quote"><div class="gmail_quote">John Cowan          <a href="http://vrici.lojban.org/~cowan">http://vrici.lojban.org/~cowan</a>        <a href="mailto:cowan@ccil.org">cowan@ccil.org</a></div><div class="gmail_quote">        Is it not written, "That which is written, is written"?</div><div class="gmail_quote"><br></div></div></div></div>