<html><body><div style="color:#000; background-color:#fff; font-family:Helvetica Neue-Light, Helvetica Neue Light, Helvetica Neue, Helvetica, Arial, Lucida Grande, Sans-Serif;font-size:16px"><div id="yui_3_16_0_1_1430452486483_83338"><span>Hi Piotr</span></div><div id="yui_3_16_0_1_1430452486483_87308"><br></div><div id="yui_3_16_0_1_1430452486483_87698">Just to be clear, you refer to free text attributes. This has a specific meaning in terms of database syntax checks. It applies to those attributes where no syntax checks are done, for example "address:", "descr:", "remarks:". Is your proposal only referring to these attributes? I trust you do not mean all attributes other than primary keys. Incidentally, although "person:", "role:" and "org-name:" are not primary keys, they are not free text either. Currently there are syntax checks done on these values. If you allow these in UTF8 then all these syntax checks will have to be dropped.</div><div id="yui_3_16_0_1_1430452486483_87859"><br></div><div>cheers</div><div id="yui_3_16_0_1_1430452486483_87886">denis</div><div dir="ltr">independent netizen<br><span></span></div><div id="yui_3_16_0_1_1430452486483_87310"><span></span></div><br>  <div id="yui_3_16_0_1_1430452486483_83343" style="font-family: Helvetica Neue-Light, Helvetica Neue Light, Helvetica Neue, Helvetica, Arial, Lucida Grande, Sans-Serif; font-size: 16px;"> <div id="yui_3_16_0_1_1430452486483_83342" style="font-family: HelveticaNeue, Helvetica Neue, Helvetica, Arial, Lucida Grande, Sans-Serif; font-size: 16px;"> <div id="yui_3_16_0_1_1430452486483_83346" class="y_msg_container"> <hr id="yui_3_16_0_1_1430452486483_87313" size="1"><font id="yui_3_16_0_1_1430452486483_83340" face="Arial" size="2"><b id="yui_3_16_0_1_1430452486483_87216"><span id="yui_3_16_0_1_1430452486483_87215" style="font-weight:bold;"></span></b></font>Date: Fri, 17 Apr 2015 12:18:04 +0200<br>From: Piotr Strzyzewski <<a id="yui_3_16_0_1_1430452486483_87575" ymailto="mailto:Piotr.Strzyzewski@polsl.pl" href="mailto:Piotr.Strzyzewski@polsl.pl">Piotr.Strzyzewski@polsl.pl</a>><br>To: <a id="yui_3_16_0_1_1430452486483_87232" ymailto="mailto:db-wg@ripe.net" href="mailto:db-wg@ripe.net">db-wg@ripe.net</a><br>Subject: [db-wg] Proposal to allow UTF8<br>Message-ID: <<a id="yui_3_16_0_1_1430452486483_87292" ymailto="mailto:20150417101804.GD7031@hydra.ck.polsl.pl" href="mailto:20150417101804.GD7031@hydra.ck.polsl.pl">20150417101804.GD7031@hydra.ck.polsl.pl</a>><br>Content-Type: text/plain; charset=utf-8<br><br>Dear DB-WG Members<br><br>Proposal:<br><br>I propose to allow UTF8 in all free text attributes of all DB objects<br>except in primary keys.<br><br>Description:<br><br>RIPE NCC service region covers Europe, the Middle East and parts of<br>Central Asia. Moreover we have users from outside of this region. This<br>means that WHOIS DB stores data for people and organizations from number<br>of different countries using number of different alphabets.<br><br>At this moment, all data in the RIPE WHOIS DB have to be stored using<br>7-bit plain US ASCII character set.<br><br>[As a side note: It is technically possible to store some UTF8 content<br>in some attributes, but the answer to whois query (both terminal and web<br>based) returns "?" character in this case.]<br><br>Lack of the full support for national character sets leads to some<br>problems which includes, but is not limited to:<br><br>1. Mistakes in person/organization names due to national->english and<br>english->national (based mostly on guess) conversion.<br>2. Mistakes in person/organization address due to national->english and<br>english->national (based mostly on guess) conversion.<br>3. Conflict of converted words with other correct words (most visible in<br>latin-based character sets).<br>4. Possible offensive word formation due to national->english<br>conversion of names and/or addresses of person/organization.<br><br>[As a side note to points no 1-3: This could lead to some problems when<br>LEA tries to find out precisely who should be contacted in case of<br>abuse.]<br><br>On the other side, community members needs to know who is responsible<br>for certain resource without the necessity of understanding all the<br>others character sets. Moreover, some objects are filled with data that<br>has to be provided in ASCII character set due to business rules (like<br>ORGANISATION object details for LIRs). RIPE NCC has a policy to insist<br>on latin based names for organisation objects that it verifies<br>(allocated, and sponsored end-user space).<br><br>Taking this into accout I propose to allow UTF8 in all free text<br>attributes of all DB objects except in primary keys.<br><br>Some possible issues to be addressed:<br><br>1. When this proposal will be supported by the DB-WG, then it has to be<br>discussed at least with AA-WG and AP-WG.<br>2. UTF8 may cause problems for client code.<br><br>Comment: The proper implementation plan and announcements schedule<br>should be prepared.<br><br>3. UTF8 may result in contact addresses and names that are not readable<br>by a large part of the community.<br><br>Comment: Primary keys (mostly names) still have to be in ASCII character<br>set. Moreover, LIRs data are also in ASCII character set due to business<br>rules.<br><br>4. At this moment there are no major technical issues blocking UTF8<br>support in the RIPE DB back-end. However thorough checks have to be<br>done.<br><br>Looking for your comments.<br><br>Piotr<br><br>-- <br>gucio -> Piotr Strzy?ewski<br>E-mail: <a ymailto="mailto:Piotr.Strzyzewski@polsl.pl" href="mailto:Piotr.Strzyzewski@polsl.pl">Piotr.Strzyzewski@polsl.pl</a><br><br></div> </div> </div>  </div></body></html>