<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jan 26, 2015 at 7:30 AM, Asmus Freytag <span dir="ltr"><<a href="mailto:asmusf@ix.netcom.com" target="_blank">asmusf@ix.netcom.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">Occasionally, because of legacy, occasionally for other reasons, Unicode has encoded identical shapes using multiple code points (homographs). A homograph pair can be understood as something that if both partners were rendered in the same font, they would (practically always) look identical. <b>Not similar, identical.</b></blockquote></div><div class="gmail_extra"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">​> Not similar, identical.​</div><br><div class="gmail_default" style="font-family:'times new roman',serif">​I'm in general agreement with Asmus's points, except that I don't think this strict a definition is productive. Suppose that character X and character Y normally look the same in the same fonts, but in 10% of the fonts they look similar—similar enough to be confusing—but not identical. Does that mean they are not "homographs"? Does it mean what these—what you might call "near homographs"—do not represent essentially the same problem for confusability as your "strict homographs", that are "<span style="font-family:arial,sans-serif">(practically always)</span>" identical in all fonts?</div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">That is, I don't think a distinction between "accident" and "intent" is useful when it comes to confusability. Based on spoofing and spamming data I've seen at Google, the characters don't even have to be identical 90% of the time. At body text sizes, the human eye sees what it expects: many dissimilarities are glossed over, like between r + n and m, or even much more different ones.</div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">(And as to Pete's question #2, there are a number of similar cases to U+08A1 in Arabic, because the encoding model was somewhat different than for most scripts, for historic reasons. But fundamentally the naming similarities are not really relevant to users: for them the visible appearance is the key, not whether a formal Unicode name that they will never see has "WITH" in it.)</div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">But the strictness of Asmus's definition is a small point, compared to the main point of his message.</div><div class="gmail_default" style="font-family:'times new roman',serif"><br></div><div class="gmail_default" style="font-family:'times new roman',serif">People who think that this problem is simple, and can be completely handled at the protocol level, are simply just not familiar enough with the problem space. The whole discussion of U+08A1 <div class="gmail_default" style="display:inline">​is simply a very small corner case</div><div class="gmail_default" style="display:inline">​: a minuscule fraction of </div><div class="gmail_default" style="display:inline">​the issues involved in </div>confusability<div class="gmail_default" style="display:inline">​. ​</div><div class="gmail_default" style="display:inline">​</div><div class="gmail_default" style="display:inline">​</div>I wish that the people who get all fired up about <div class="gmail_default" style="display:inline">​</div>U+08A1<div class="gmail_default" style="display:inline">​ would talk to security experts to find out what sorts of characters—in practice—<b><i>do</i></b> represent confusability issues: </div>U+08A1 and related characters would not even be on the radar screen.</div></div><div class="gmail_extra"><span style="font-family:'times new roman',serif"><br></span></div><div class="gmail_extra"><span style="font-family:'times new roman',serif">As you say, those kinds of issues are best solved by <div class="gmail_default" style="font-family:'times new roman',serif;display:inline">​higher level protocols; it is simply infeasible to do more than nibble at the edges with the low-level protocol. It just gives people a false sense that they are solving the problem.</div></span></div><div class="gmail_extra"><br></div><div class="gmail_extra"><div><div class="gmail_signature"><div dir="ltr"><font face="'times new roman', serif"><div style="margin:0px;background-color:transparent"><a href="https://google.com/+MarkDavis" target="_blank">Mark</a></div><div style="margin:0px;background-color:transparent"><i><br></i></div><div style="margin:0px;background-color:transparent"><i>— Il meglio è l’inimico del bene —</i></div></font><div><div><font face="'times new roman', serif"><i><span style="font-style:normal"><i></i></span><i></i></i></font></div></div></div></div></div>
</div></div>