ஒருங்குறியில் தமிழ் – தேவைகளும் தீர்வுகளும் — கருத்தரங்கு குறிப்புகள்

தமிழ் இணையக் கல்விக்கழகத்தில் தமிழ் ஒருங்குறி தொடர்பாக ’ஒருங்குறியில் தமிழ் – தேவைகளும் தீர்வுகளும்’ என்ற தலைப்பில் ஒரு நாள் கருத்தரங்கு, நேற்று நடைபெற்றது. நிகழ்ச்சி நிரல்

முதல் அமர்வில் ஒருங்குறியில் தமிழ் சின்னங்கள், பின்னங்கள் பற்றிய ஶ்ரீரமண ஶ்ர்மாவின் பரிந்துரைகள் பற்றியது. வழக்கொழிந்த சின்னங்களை பின்னங்களையும் குறியேற்றமே செய்யத்தேவையில்லை என்ற சலரின் கருத்து வியப்பூட்டியது. கணக்கதிகாரம் ஒருங்குறியில் இருக்க இக்குறியேற்றங்கள் அவசியம்.

அடுத்து, TACE-16 குறிமுறை பற்றிய அமர்வு. TACE-16 பற்றி என் தனிப்பட்ட கருத்து மாறுபாடுகளால், அதிகம் கவனிக்கவில்லை. பதிப்பாளர்களுக்கு ஒருங்குறி பயன்படுவதில்லை என்பது தெரிந்த செய்தி, ஆனால் தி இந்து தமிழ், இந்திய மொழிகளில் ஒருங்குறி மூலம் அச்சிடும் முதல் நாளிதழ் என்பது தமிழ் ஒருங்குறி பொறுத்தவரையில் நல்ல முன்னேற்றம். சிங்கப்பூரில் TACE-16 மூலம் நாளிதழ் அச்சிடப்படுகிறது என்பது இன்னொரு செய்தி.

தாமதங்களால், அடுத்த அமர்வு உணவு இடைவெளிக்குப்பின் நகர்த்தப்பட்டது. நல்ல உணவு.

பின்னர், ‘ஒரு இந்தியா ஒரு எழுத்துரு’ (லிபி??) என்ற கட்டுரை ஒரு முதியவரால் வாசிக்கப்ப்டது. ISCII / இன்ஸ்க்ரிப்ட்டின் நீட்சியாக எனக்கு விளங்கியது. பெயரளவில் ‘ஒரு இந்தியா’ என்பது அழகாக இருந்தாலும் அடிப்படையில் நிறைய தொடர்பிருப்பினும், அதற்கிணையான பல சிறு வேறுபாடுகளைக் கொண்ட பல மொழிகளை அதீத தரப்படுத்தல் / ஒன்றிணைத்தில் நுட்ப ரீதியில் கூட சிக்கல் ஏற்படுத்தும் என்பது என் கருத்து.

அடுத்து ‘ஒருங்குறி எழுத்துருக்களும், விசைப்பலகையும் – பயன்பாடு’ என்ற அமர்வு. முதலில் தொடுதிரை, எண்கைபேசி, உணர்வு உள்ளீட்டு முறைகள் பற்றி பேசப்பட்டது. தமிழ் 99 இன் ஆசிரியர்களுள் ஒருவரான நபர் அது பழக அவ்வளவு எளிதில்லை, மேலும் எளிமையான விசைப்பலகை அமைப்புகள் வரவேண்டும் எனக்கூறியது நிதர்சனத்தை மதிக்கும் கருத்து. பின்னர் தேசிய தகவல் மையம் (NIC) அமைப்பினரின் பேச்சு. கருத்தரங்கின் மையத் தலைப்பிலிருந்து சற்று விலகியிருந்தாலும் அரசு நிறுவனங்கள் உருவாக்கும் மென்பொருட்களில் தமிழ் / இந்திய மொழிகளின் பயன்பாடு / சவால்கள் பற்றி இந்த பேச்சு அமைந்தது. கேள்வி நேரத்தில் நான் ஶ்ரீ/ஸ்ரீ பற்றியும் தேவையற்ற இடங்களில் ZWNJ உள்ளீடும் உள்ளீட்டு கருவிகள் பற்றியும் பகிர்ந்தேன். இதனை தரப்படடுத்த வேண்டும் என்று முறையிட்டேன். தர்க்கமுடிவுபெறாமல் சில வாதங்கள். மணி. மூ. மணிவண்ணன் அவர்களுக்கு ஒரு மின்னஞ்சல் அனுப்பியுள்ளேன்.

அடுத்து நவீனக்கருவிகளில் தமிழ் ஆதரவு குறித்து பத்ரி சேஷாத்ரியும், தமிழில் கையெழுத்து உள்ளீடுக்கான ஆண்ட்ராய்டு செயலி பற்றியும் பேசப்பட்டது. சிங்கப்பூர் அரசின் முயற்சியால் ஆப்பிளில் தமிழ் ஆதரவு மேம்படுத்தப்பட்டதையும், அதேபோல் தமிழக அரசு மூலம் நாமும் முயற்சிக்க வேண்டும் என முன்வைக்கப்பட்டது.

தேனீர் இடைவேளைக்குப்பின் பரிந்துரைகள் தொகுக்கப்பட்டன. தமிழ் சின்னங்கள், பின்னங்கள் ஒருங்குறி நிரலாளர்களுக்கான ஆவணத்தில் எவ்வாறு ஒலிபெயர்க்க வேண்டும் என ஒரு bikeshedding விவாதம் தவிர மற்றவையெல்லாம் விவாதங்கள் அவ்வளவு இல்லாமல் அரசுக்கு அளிக்கப்பட்ட பரிந்துரைகள். அரசு அலுவலகங்களில் TACE-16 பயன்பாடு பற்றிய பரிந்துரை ஒருங்குறியே முதன்மை குறிமுறை என்ற நிலையில் மாற்றத்தை ஏற்படுத்தும் முயற்சி. ஆனால் ஒருங்குறி இங்கு நிலைத்து நிற்கும் என்பதில் எந்த ஐயப்பாடும் எனக்கு இல்லை.

நிகழ்ச்சி தொடர்பான அவணங்கள் இணையத்தில் இல்லை, அனைத்தும் தளத்தில் எற்றப்பட்டால் நன்று.

நீண்டநாட்கள் பின்பு ஶ்ரீநிவாசனையும், செங்கைப்பொதுவன் ஐயாவையும் சந்தித்தில் மகிழ்ச்சி. ஶ்ரீரமண ஶ்ர்மா, பத்ரி சேஷாத்ரி, மணி.மூ.மணிவண்ணன் போன்றவர்களுடனான ‘பாதி-உரையாடல்கள்’ நன்றாக அமைந்தன.

Advertisements

SHRI/SRI ? — ஸ்ரீ = ஶ் + ரீ != ஸ் + ரீ – Unicode

ஶ் – An introduction

For those of you who are not aware of the existance of this character, it is a grantha character SHA normally used only in sanskrit texts written in Tamil. Unlike ஸ, ஷ, க்ஷ, ஜ and ஹ. ஶ made a late entry into Unicode. ஶ however was very much alive in print form particularly in Hindu religious texts in Tamil for a long time now.

Code point, Glyph :

Let us first understand how Tamil characters are treated in unicode. All Uyirmei characters are considered as “complex glyph" and are stored with consequent individual elements code point. For instance க் gets stored as க, followed by ்(pulli/Virama). When consecutive individual elements come in the text, the font chooses to display a single complex glyph. This is also the reason why using the standard character length of Indic text will be longer than what it is! Read Gerard’s blogpost twitter-in-chinese-or-in-tamil

ஸ்ரீ = ஸ் + ரீ to ஶ் + ரீ:

Until Unicode 4.1, ஶ did not have a codepoint in Unicode. So ஸ்ரீ was considered as a complex glyph of the form ஸ் and ரீ. Later ஸ்ரீ was considered to be ஶ் + ரீ. Linguistically if one is "strict”, it shall be right to call ஸ்ரீ as ஶ் + ரீ as that was the intended pronunciation. One can even see how the glyph’s ஶ் and ஸ்ரீ are slightly related in shape. But if one accepts that language evolves (read previous post on Sri’s cultural aspect) and the fact that ஶ never made into mainstream except for religious texts, ஸ்ரீ = ஸ் + ரீ can be accepted. Kaa.Sethu wrote other usecases non-conjunct form of ஸ்ரீ. Seeing that the definition change could well be a good thing. 

Dual encoding / re-coding ஸ்ரீ:

I am not sure why Unicode did not think of potential recoding text when they changed the definition of ஸ்ரீ = ஸ் + ரீ to ஶ் + ரீ. May be they thought Tamil Unicode was in its infancy and not much text would be there. The fact that am writing this blogpost after 7 years of Unicode 4.1 is saddening. Most of the popular Unicode fonts are pre 4.1 and do not have glyph for ஶ். So they still use the old definition of ஸ்ரீ = ஸ் + ரீ. The input method developers also ignored the Unicode standard may be they did not have the “vision” and were shortsighted by the font’s display.

But there are people who follow the rules of the game and upgrade themselves to latest standard even if they stand out from the crowd. Among the major technology players, Apple has implemented Unicode strictly and has updated. This is the reason why reading texts in and out of Mac/iOS a pain. ஸ்ரீ typed on most non-Mac input tools uses ஸ் + ரீ and hence Apple font does not display the complex glyph and choses to display them individually as ஸ்‌ரீ. Other hand ஶ்ரீ typed on Mac will be shown as seperate glyphs outside Apple world which uses fonts with older standards. Where is the interoperability of Unicode? LOST! Think of searching these texts? We are back to pre-unicode days! Some fonts like Lohit-Tamil show the same glyph for both the forms, but that is a deviation from Unicode standard, but a step forward in usability.

Solutions?

1. Ask everyone to upgrade to latest Unicode standard. Easier said than done.

2. Make a proposal to Unicode to announce ஸ்ரீ and ஶ்ரீ canonically equivalent. This however will be a cultural issue with people following grammar strictly / treating language as a static entity opposing and modernists supporting it based on mass usage.

PS: For TanitTamizh folks, this will be a non issue, but fortunately / unfortunately Tamil masses still have to live this problem until a solution is found.

Reading Tamil texts in old script.

Tamil Script had undergone a reform on select characters to bring uniformity and simplify the writing style in 1960’s. The table below shows the old way of writing on the left and the current way on the right. I have mild memories of seeing bus boards having னை in சென்னை(Chennai) in its old form with elephant’s trunk during early 90’s.

Classical and Modern script

Now its possible to read texts in their old form digitally, thanks to the newly released Lohit-Tamil-Classical font. Announcemnt Download link

Having classical fonts will not only help giving the user the feel of reading historical texts the way they were written, but will also be probably making digitisation of old texts simpler with OCR solutions.

Copyright notes: “Simplified tamil script” by User:Avedeus, under CC-BY-SA 3.0 Unported, from Wikimedia Commons