തിരുവനന്തപുരം∙ 'പഞ്ചാരമണൽത്തരികളെപ്പോലെ' എന്നെഴുതിയാൽ നമുക്ക് ഒറ്റനോട്ടത്തിൽ മനസിലാകുമെങ്കിലും ഇതിലെ ഓരോ വാക്കുകളും തിരിച്ചറിയാൻ കംപ്യൂട്ടറിന് ഇതുവരെ കഴിയുമായിരുന്നില്ല. ഇനിയതൊക്കെ പഴങ്കഥ, എത്ര കൂട്ടിക്കെട്ടിയെഴുതിയാലും ഓരോ വാക്കുകളുടെയും ലിംഗം, കാലം (tense), ജെൻഡർ എന്നിവ തിരിച്ചറിഞ്ഞ് അതിനോട് പ്രതികരിക്കാൻ കഴിയുന്ന മലയാളം മോർഫോളജി അനലൈസർ സംവിധാനം പുറത്തിറങ്ങി. കംപ്യൂട്ടറിൽ ഇംഗ്ലിഷ് പോലെ മെയ്വഴക്കത്തോടെ മലയാളം സന്നിവേശിപ്പിക്കാനുള്ള ചരിത്രദൗത്യത്തിന്റെ ആദ്യ പതിപ്പ് മലയാളം കംപ്യൂട്ടിങ്ങിൽ കുതിച്ചുചാട്ടമുണ്ടാക്കുമെന്നാണ് വിലയിരുത്തൽ.
പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ വർഷങ്ങളായുള്ള കഠിനപ്രയത്നമാണ് പൂവണിയുന്നത്. മലയാളത്തിന്റെ വാക്യഘടനയും വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിൽ സ്പെൽചെക്കർ, ഗ്രാമർചെക്കർ, മെഷീൻ ട്രാൻസ്ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. എംഎൽമോർഫ് (mlmorph)– വേർഷൻ 1.0.0 എന്നാണ് പേരിട്ടിരിക്കുന്നത്. അനലൈസറിനു പുറമേ സ്പെൽചെക്ക്, സംഖ്യയെ വാക്യരൂപത്തിലെഴുതാനുള്ള സംവിധാനത്തിന്റെയും ഡെമോ പുറത്തിറക്കിയിട്ടുണ്ട്. വെബ് ഡവലപ്പർമാർക്ക് അവരുടെ സോഫ്റ്റ്വെയറുകളിലേക്ക് ഉൾപ്പെടുത്താൻ കഴിയുന്ന ഓപ്പൺ സോഴ്സ് പദ്ധതിയായിട്ടാണ് അനലൈസർ തയ്യാറാക്കിയിരിക്കുന്നത്. വെബ്സൈറ്റ്: morph.smc.org.in

ഉപയോഗങ്ങൾ ഒട്ടേറെ
∙ മലയാളം സ്പെൽചെക്ക്– മലയാളത്തിലെ വാക്കുകൾ അസംഖ്യമാണ്. ഇവ ചേർത്തുള്ള പദസഞ്ചയം ഒരുക്കുക എളുപ്പമല്ല. പകരം വാക്കുകൾ, പ്രത്യയം, സന്ധി തമ്മിലുള്ള ബന്ധങ്ങൾ ഭാഷാനിയമമായി കണ്ടെത്താൻ കംപ്യൂട്ടറിന് കഴിയുന്നതോടെ പദസഞ്ചയത്തിന്റെ വലുപ്പം കുറയ്ക്കാം. 108 എന്ന വാക്ക് മലയാളത്തിൽ നൂറ്റെട്ട് എന്നെഴുതും. ഇതിൽ നൂറ് (100), എട്ട് (8) എന്നീ വാക്കുകൾ പശയിട്ടു ചേർത്തിരിക്കുകയാണ്. 109 ആണെങ്കിൽ നൂറ്റൊൻപത് എന്ന മറ്റൊരു വാക്കാണു ലഭിക്കുക. സമാനസ്വഭാവമുള്ള ഫിന്നിഷ്, ടർക്കിഷ്, ജർമൻ തുടങ്ങിയ ഭാഷകൾ ഈ പ്രശ്നം പരിഹരിച്ചത് എങ്ങനെയെന്നു പഠിച്ചു. സന്തോഷ് വികസിപ്പിച്ച സ്പെൽച്ചെക്കിന്റെ ഡെമോ–morph.smc.org.in/spellcheck

∙ ടെക്സ്റ്റ് ടു സ്പീച്ച്: 108 എന്ന് കംപ്യൂട്ടറിൽ ടൈപ്പ് ചെയ്താൽ നൂറ്റിയെറ്റ് എന്ന് ഉച്ചരിക്കാൻ ഇനി കംപ്യൂട്ടറുകൾക്ക് കഴിയും. രാത്രി ഉറങ്ങാൻ നേരം ഐഫോണിലെ സിറി വോയ്സ് ആപ്ലിക്കേഷനോട് Set alarm at 5.30 am എന്നു പറഞ്ഞിട്ടു കൂർക്കം വലിച്ചുറങ്ങുന്നവർ ഏറെയാണ്. നിങ്ങൾ പറഞ്ഞ വാചകം അക്ഷരംപ്രതി അനുസരിച്ച് ഫോൺ അഞ്ചരയ്ക്ക് അലാം മുഴക്കും. പക്ഷേ, ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു മലയാളത്തിൽ ഫോണിനോടു പറഞ്ഞാലോ? ഫോണിന് ഒരു ചുക്കും മനസ്സിലാകില്ല! കംപ്യൂട്ടറിൽ മലയാളമുണ്ടല്ലോ, പിന്നെന്താണു കുഴപ്പമെന്നു ചോദിക്കാൻ വരട്ടെ. മലയാളം ടൈപ്പ് ചെയ്യാനും വായിക്കാനും കഴിയുന്നതുകൊണ്ടു മാത്രം വാക്കുകളും അവ തമ്മിലുള്ള ബന്ധവും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനു കഴിവില്ല. അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപവും അഞ്ചര എന്നാൽ 5.30 എന്ന സമയമാണെന്നും, പുലർച്ചെ ആണെന്നും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനെ ആരും പഠിപ്പിച്ചിട്ടില്ല.
∙ വോയിസ് സെർച്ച്: സിറി പോലെയുള്ള വോയ്സ് ആപ്ലിക്കേഷനുകളോട് 108 എന്ന് പറഞ്ഞാൽ അതിന്റെ വാക്യരൂപത്തിൽ നിന്ന് സംഖ്യ തിരിച്ചറിയാൻ കഴിയും. ഗൂഗിൾ ഹോം, അലക്സ പോലെയുള്ള ഉപകരണങ്ങളിൽ മലയാളം അനായാസം ഉപയോഗിക്കാം.

∙ ഡേറ്റാ സെർച്ച്: ‘തിരുവനന്തപുരത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന തിരുവനന്തപുരം എന്ന നാമം തിരിച്ചറിയാൻ കഴിയുന്നതോടെ ഗൂഗിളിൽ ‘തിരുവനന്തപുരം’ എന്നു തിരഞ്ഞാൽ അതിന്റെ വിവിധ രൂപങ്ങൾ പ്രതിപാദിക്കുന്ന വെബ്സൈറ്റുകളും ലഭിക്കും.

∙ സെന്റിമെന്റൽ അനാലിസിസ്: സമൂഹമാധ്യമങ്ങളിൽ ഇംഗ്ലിഷ് വാചകങ്ങൾ വായിച്ച് അതിലെ വികാരമെന്തെന്ന് കംപ്യൂട്ടറിന് വായിക്കാമായിരുന്നു. ഇനിയിത് മലയാളത്തിലും സാധ്യമാകും.