Predlog za sr_RS Collation

Unicode vlada. Već dugo su Windows .Net i Java okruženja zaživela na UTF-16 unikod kodiranju, dok na internetu najveći broj stranica koristi UTF-8. Iz ugla nekog čija kultura koristi i ćirilicu i latinicu, i koja se kao takva nikada nije uklapala u nekakve kodne strane, mogu reći - Napokon! Uz malo sreće i fontova i Š i Ш će biti prikazani na vašem ekranu. Ali kako će biti sortirani? To je predmet ovog predloga. Dozvolite prvo da vam predstavim haos koji postoji sa srpskim jezikom i pravilima za sortiranje.

Srpski kroz internet vekove

Imamo oznaku “sr” za jezik. Koja je po ISO standardu postala ”sr_YU”, ali to je bilo ASCII vreme, pa su se pojavlie i ”sr_YU@Latin“ i ”sr_YU@Cyrilic”. Onda je došao period sankcija gde je isplivao ”sr_SP” uz Latin i Cyrilic dodatak. Interesantno da je neko predpostavio da će Srbija dobiti SP kao ISO oznaku zemlje umesto YU, a ostali su prepisivali. I svi su pogrešili - dobili smo CS. A uz to i ”sr_CS” (Windows i .Net 2.0) . Pojavio se i “Serbian (BIH)”. Ove godine nakon osamostaljenja Srbije zaživela je, napokon, i ISO oznaka RS. Nisam video da se negde koristi sr_RS, pa sam ovde hteo da skrenem pažnju kako da se nova oznaka iskoristi da se dobije upotrebljivo rešenje u skladu sa jezikom.

ORDER BY Prezime COLLATE sr_RS

Većina sadržaja kojeg uopšte treba sortirati se nalazi u bazama podataka. Najveći igrači na tom polju su Oracle, Microsoft SQL Server, MySQL, IBM DB2 i drugi. Kada poželite da dobijete neki sortiran sadržaj, serveru se šalje ORDER BY komanda. Ako je navedena tekstualna kolona, server sortira podatke koristeći pravila za sortiranje (collation) . U praksi se navede podrazumevan collation kod kreiranja baze koji onda važi za sve tabele. Na posletku, ako želite da postavite colation na srpski, morate prvo da pronađete koji srpski želite (ako postoji!) i morate da se odlučite između ćirilice i latinice. Ta odluka uvek ide na štetu ćirilice. Pitate se zašto? Uzvraćam pitanjem. Da li ste ikada videli srpsku ćiriličnu tastaturu? U unikod svetu to nije porebno. Evo zašto i kako.

Jedna korisnica je Ana a druga Ана.

Collation za ćirilicu i latinicu je razdvojen jer tako piše u pravopisu srpskog jezika. Odabereš pismo, i pišeš onim koji si odabrao. Razlog za to je praktičan - ako napišem CABA, da li sam napisao Sava? ili na Цабa? Sa druge strane internet dozvoljava da i ćirilica i latinica završe u istoj bazi. Iako slova isto izgledaju, unikod ispod haube vrlo dobro zna da li pišem ćirilicom ili latinicom. Naime u unikodu a (latinično) i а (ćirilično) su dva totalno različita slova koja se nalaze na različitim pozicijama u fontu. Isto izgledaju, ali su to dva različita znaka.

sr_RS kao rešenje i spas

sr_RS treba da bude sortiranje koje uzima u obzir i latinicu i ćirilicu. U isto vreme i bez razdvajanja. Možemo dati prednost ćirilici da ide uvek prva. Ili da zagrizemo i napravimo mešan sort azbuke i abecede, ali mi se to čini ipak predaleko. Sa ćirilicom i latinicom sr_RS bi takođe bio način da sprečimo da internet potpuno ubije srpsku ćirilicu. Nadam se da će ovo pročitati i timovi koji rade prevođenja i implementacije vezane za srpski jezik, jer očigledno je da ovde postoji još mesta za raspravu. Ali kratku i efikasnu. Srpski jezik zaslužuje sistemski, a ne stihijski tretman.

Lovor blog

Predlog Za sr_RS Collation

Srpski kroz internet vekove

ORDER BY Prezime COLLATE sr_RS

Jedna korisnica je Ana a druga Ана.

sr_RS kao rešenje i spas