<br><div class="gmail_quote"><div><div class="Wj3C7c"><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Rick McGowan</b> &lt;<a href="mailto:rick@unicode.org" target="_blank">rick@unicode.org</a>&gt;<br>

Date: Fri, Apr 4, 2008 at 3:54 PM<br>Subject: Unicode 5.1 Released<br>To: <a href="mailto:unicode@unicode.org" target="_blank">unicode@unicode.org</a><br><br><br>The Unicode Consortium is pleased to announce the release of Unicode 5.1.<br>


This release contains over 100,000 characters, and provides significant<br>
additions and improvements that extend text processing for software<br>
worldwide. Some of the key features are: increased security in data<br>
exchange, significant character additions for Indic and South East Asian<br>
scripts, expanded identifier specifications for Indic and Arabic scripts,<br>
improvements in the processing of Tamil and other Indic scripts,<br>
linebreaking conformance relaxation for HTML and other protocols,<br>
strengthened normalization stability, new case pair stability,<br>
plus others given below.<br>
<br>
The Version 5.1.0 data files and documentation are final and posted on the<br>
Unicode site. In addition to updated existing files, implementers will<br>
find new test data files (for example, for linebreaking) and new XML data<br>
files that encapsulate all of the Unicode character properties. For<br>
details, see the page for Unicode 5.1.0 at<br>
<a href="http://www.unicode.org/versions/Unicode5.1.0/" target="_blank">http://www.unicode.org/versions/Unicode5.1.0/</a>.<br>
<br>
A major feature of Unicode 5.1.0 is the enabling of ideographic variation<br>
sequences. These sequences allow standardized representation of glyphic<br>
variants needed for Japanese, Chinese, and Korean text. The first<br>
registered collection, from Adobe Systems, is now available at<br>
<a href="http://www.unicode.org/ivd/" target="_blank">http://www.unicode.org/ivd/</a>.<br>
<br>
Unicode 5.1 contains significant changes to properties and behaviorial<br>
specifications. Several important property definitions were extended,<br>
improving linebreaking for Polish and Portuguese hyphenation. The Unicode<br>
Text Segmentation Algorithms, covering sentences, words, and characters,<br>
were greatly enhanced to improve the processing of Tamil and other Indic<br>
languages. The Unicode Normalization Algorithm now defines stabilized<br>
strings and provides guidelines for buffering. Standardized named sequences<br>
are added for Lithuanian, and provisional named sequences for Tamil.<br>
<br>
Unicode 5.1.0 adds 1,624 newly encoded characters. These additions include<br>
characters required for Malayalam and Myanmar and important individual<br>
characters such as Latin capital sharp s for German. Version 5.1 extends<br>
support for languages in Africa, India, Indonesia, Myanmar, and Vietnam,<br>
with the addition of the Cham, Lepcha, Ol Chiki, Rejang, Saurashtra,<br>
Sundanese, and Vai scripts. Scholarly support includes important editorial<br>
punctuation marks, as well as the Carian, Lycian, and Lydian scripts, and<br>
the Phaistos disc symbols. Other new symbol sets include dominoes, Mahjong,<br>
dictionary punctuation marks, and math additions. This latest version of<br>
the Unicode Standard has exactly the same character assignments as ISO/IEC<br>
10646:2003 plus Amendments 1 through 4.<br>
<br>
The Unicode Collation Algorithm (UCA), the core standard for sorting all<br>
text, is also being updated at the same time (see<br>
<a href="http://www.unicode.org/reports/tr10/" target="_blank">http://www.unicode.org/reports/tr10/</a>). The major changes in UCA include<br>
coverage of all Unicode 5.1 characters, tightened conformance for canonical<br>
equivalence, clearer definitions of internationalized search and matching,<br>
specifications of parameters for customizing collation, and definitions of<br>
collation folding. There are also important clarifications on the use of<br>
contractions (such as &quot;ch&quot; in Slovak) in collation.<br>
<br>
The next version of the Unicode locale project (CLDR) is also being<br>
prepared on the basis of Unicode 5.1, and is now open for public data<br>
submission (see <a href="http://www.unicode.org/cldr/" target="_blank">http://www.unicode.org/cldr/</a>).<br>
<br>
<br>
</div><br><br clear="all"><br></div></div>-- <br><font color="#888888">Mark
</font></div><br><br clear="all"><br>-- <br>Mark