<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Dec 18, 2016 at 4:31 PM, Don Osborn <span dir="ltr"><<a href="mailto:dzo@bisharat.net" target="_blank">dzo@bisharat.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><p class="gmail-m_5708932459631275682MsoPlainText">Would it be possible to use the lang tag "mul" at the head of a document, and then tag specific text strings with relevant language tags?<u></u><u></u></p><p class="gmail-m_5708932459631275682MsoPlainText"></p></blockquote></div><br><div class="gmail_default" style="font-family:"times new roman",serif">​It is certainly possible to put mul at the head, and tag everything specifically. (In practice, that is no different than putting in "und".) Alternatively, you can put the most common language​ in head, and tag everything else specifically. </div><div class="gmail_default" style="font-family:"times new roman",serif"><br></div><div class="gmail_default" style="font-family:"times new roman",serif">For code-switching like Spanglish or Hinglish, tagging every instance of a different language since it is often done in the same sentence is so very tiresome, however, that it is essentially never done. And having the expectation that it be done, except in tightly controlled circumstances, well, get used to disappointment.</div><div class="gmail_default" style="font-family:"times new roman",serif"><br></div><div class="gmail_default"><font color="#000000"><span style="font-family:"times new roman",serif">And that doesn't account for mixed words, as you point out. I've definitely seen and heard "<i>downgeloadet</i>" in German</span><font face="times new roman, serif">, which is might have originated in English, but clearly shouldn't be tagged as English. </font></font><span style="color:rgb(0,0,0);font-family:"times new roman",serif"> (<a href="http://www.duden.de/rechtschreibung/downloaden">http://www.duden.de/rechtschreibung/downloaden</a>, with another example</span><font face="times new roman, serif" style="color:rgb(0,0,0)"><i> "hast du das neue <u>Update</u> schon <u>down</u>ge<u>load</u>et?"</i>)</font></div><div class="gmail_default" style="font-family:"times new roman",serif"><br></div><div class="gmail_default" style="font-family:"times new roman",serif">That's why I think following up on Michael Everson's suggestion is a better one, to have a mechanism for tagging a document (or chunk) of code-switched text.</div><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><font face="'times new roman', serif"><div style="background-color:transparent;margin:0px"><div></div></div><div style="background-color:transparent;margin:0px">Mark</div></font><div><div><font face="'times new roman', serif"><i><span style="font-style:normal"><i></i></span><i></i></i></font></div></div></div></div></div></div></div>
</div></div>