രാത്രി ഉറങ്ങാൻ നേരം ഐഫോണിലെ സിറി വോയ്സ് ആപ്ലിക്കേഷനോട് Set alarm at 5.30 am എന്നു പറഞ്ഞിട്ടു കൂർക്കം വലിച്ചുറങ്ങുന്നവർ ഏറെയാണ്. നിങ്ങൾ പറഞ്ഞ വാചകം അക്ഷരംപ്രതി അനുസരിച്ച് ഫോൺ അഞ്ചരയ്ക്ക് അലാം മുഴക്കും. പക്ഷേ, ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു മലയാളത്തിൽ ഫോണിനോടു പറഞ്ഞാലോ? ഫോണിന് ഒരു ചുക്കും മനസ്സിലാകില്ല! കംപ്യൂട്ടറിൽ മലയാളമുണ്ടല്ലോ, പിന്നെന്താണു കുഴപ്പമെന്നു ചോദിക്കാൻ വരട്ടെ. മലയാളം ടൈപ്പ് ചെയ്യാനും വായിക്കാനും കഴിയുന്നതുകൊണ്ടു മാത്രം വാക്കുകളും അവ തമ്മിലുള്ള ബന്ധവും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനു കഴിവില്ല.
അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപവും അഞ്ചര എന്നാൽ 5.30 എന്ന സമയമാണെന്നും, പുലർച്ചെ ആണെന്നും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനെ ആരും പഠിപ്പിച്ചിട്ടില്ല. എന്നാൽ കഥ മാറുകയാണ്, ഇംഗ്ലിഷ് പോലെ മെയ്വഴക്കത്തോടെ കംപ്യൂട്ടറിലേക്കു മലയാളം സന്നിവേശിപ്പിക്കാനുള്ള ഒരു ചരിത്രദൗത്യം അണിയറയിൽ ഒരുങ്ങുന്നു.
മലയാളത്തിന്റെ വാക്യഘടനയും വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിന്റെ ഇടം ഒരു പടി കൂടി ഉയരുമെന്നുറപ്പ്. മലയാളത്തിൽ സ്പെൽചെക്കർ, ഗ്രാമർചെക്കർ, മെഷീൻ ട്രാൻസ്ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ വർഷങ്ങളായുള്ള കഠിനപ്രയത്നമുണ്ട് ഈ പദ്ധതിക്കു പിന്നിൽ.
കുട്ടിക്ക് മലയാളം ‘അറിയില്ല’!
ഇന്ത്യയ്ക്കു സ്വാതന്ത്ര്യം കിട്ടിയതെന്നാണെന്നു ചോദിച്ചാൽ മറുപടിയായി ആയിരത്തിത്തൊള്ളായിരത്തിനാൽപത്തിയേഴ് എന്നു പറഞ്ഞുതരുന്ന ഒരു ഡിജിറ്റൽ സംവിധാനം വന്നുവെന്നു സങ്കൽപിക്കുക. ചോദ്യം മനസ്സിലാക്കിയാൽ തന്നെ 1947നെ വാക്യരൂപത്തിലെത്തിക്കണം.
മലയാളത്തിൽ അക്കങ്ങളെ വാക്കുരൂപത്തിലാക്കാനും വാക്കിലുള്ളതിനെ അക്കത്തിലാക്കാനും കംപ്യൂട്ടറിനെ എങ്ങനെ പഠിപ്പിച്ചെടുക്കാം എന്നു ചിന്തിച്ചിട്ടുണ്ടോ? ഒട്ടും എളുപ്പമല്ല ഇത്. ഇംഗ്ലിഷിൽ നിന്നു വിഭിന്നമായി മലയാളവാക്കുകളുടെ സന്ധി, സമാസസ്വഭാവങ്ങൾ, പ്രത്യയങ്ങൾ എന്നിവയുടെ സങ്കീർണമായ കൂടിച്ചേരലുകളാണു പ്രശ്നം.
ഉദാഹരണത്തിന്, ‘കോട്ടയത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന കോട്ടയം എന്ന നാമം തിരിച്ചറിയാൻ സാധിച്ചാൽ ഗൂഗിളിൽ ‘കോട്ടയം’ എന്നു തിരഞ്ഞാൽ കോട്ടയത്തേക്ക് എന്ന വാക്കുള്ള ഒരു വെബ്സൈറ്റിൽ എത്താൻ കഴിയും. നിലവിൽ കോട്ടയം എന്നു തിരഞ്ഞാൽ കോട്ടയം എന്ന വാക്കിന്റെ വിവിധ രൂപങ്ങൾ (കോട്ടയത്തിൽ, കോട്ടയത്തിന്, കോട്ടയത്തും, കോട്ടയവും...) പ്രതിപാദിക്കുന്ന ഉള്ളടക്കം കിട്ടില്ല. അതുപോലെ, ഓടുക എന്ന വാക്കിൽ നിന്ന് ഓടി എന്ന ഭൂതകാലരൂപത്തിലെത്താനും സോഫ്റ്റ്വെയറിനു സാധിക്കണം. ഇതിനാണു സന്തോഷ് ‘മലയാളം മോർഫോളജി അനലൈസർ’ എന്ന സങ്കേതം വികസിപ്പിച്ചത്.
പദാവലിക്ക് അവസാനമില്ല!
108 എന്ന വാക്ക് മലയാളത്തിൽ നൂറ്റെട്ട് എന്നെഴുതും. ഇതിൽ നൂറ് (100), എട്ട് (8) എന്നീ വാക്കുകൾ പശയിട്ടു ചേർത്തിരിക്കുകയാണ്. 109 ആണെങ്കിൽ നൂറ്റൊൻപത് എന്ന മറ്റൊരു വാക്കാണു ലഭിക്കുക. 2008ൽ മലയാളം പദങ്ങൾ ഉപയോഗിച്ച് ഒരു സ്പെൽചെക്ക് സംവിധാനം ഒരുക്കുകയായിരുന്നു സന്തോഷിന്റെ ലക്ഷ്യം.
ഒന്നരലക്ഷം പദങ്ങൾ ചേർത്തുവച്ച് ഒരു സംവിധാനം പരീക്ഷിച്ചപ്പോൾ നിരാശയായിരുന്നു ഫലം. പരീക്ഷണത്തിനായി തിരഞ്ഞെടുത്ത ഖണ്ഡികയിലെ വലിയൊരു ശതമാനം വാക്കുകളും സന്തോഷിന്റെ പദാവലിയിൽ ഇല്ലായിരുന്നു. കാരണം, മലയാളത്തിന്റെ പ്രത്യേകത തന്നെ. പ്രത്യയം, സന്ധി തുടങ്ങിയവ ചേർത്ത് അസംഖ്യം പദങ്ങൾ നിർമിക്കാൻ കഴിയും. അങ്ങനെ നോക്കിയാൽ ഒന്നരലക്ഷമെന്നത് ഒരംശം പോലുമാകില്ല.അന്നുമുതൽ ഗവേഷണം ആരംഭിച്ചു. സമാനസ്വഭാവമുള്ള ഫിന്നിഷ്, ടർക്കിഷ്, ജർമൻ തുടങ്ങിയ ഭാഷകൾ ഈ പ്രശ്നം പരിഹരിച്ചത് എങ്ങനെയെന്നു പഠിച്ചു.
പരിഹാരം ഇങ്ങനെ
‘തിരുവനന്തപുരത്ത് നാലരയ്ക്കു മഴയാണ്, തൃശൂരിൽ വെയിലാണ്’ എന്ന വാചകത്തിൽ നിന്നു തിരുവനന്തപുരം, നാല്, മഴ, തൃശൂർ, വെയിൽ എന്നീ വാക്കുകൾ വേർതിരിച്ചെടുക്കാൻ കഴിയും. പെയ്തു എന്ന വാക്കിനെ സോഫ്റ്റ്വെയർ വഴി വിശകലനം ചെയ്യുമ്പോൾ പെയ്യുക എന്ന മൂലപദത്തിലെത്തും. ഇതു ഭൂതകാലമാണെന്നും മനസ്സിലാക്കും. കേരളപാണിനീയം ഉൾപ്പെടെയുള്ള വ്യാകരണഗ്രന്ഥങ്ങളിലെ സങ്കീർണമായ നിയമങ്ങൾ മുഴുവനും പ്രോഗ്രാമായി തയാറാക്കിക്കൊണ്ടിരിക്കുകയാണ്. ഇതിനനുസരിച്ച് വാക്കുകളെ കൃത്യമായി മുറിക്കുകയും അർഥങ്ങളിലെത്തുകയും ചെയ്യും. വാക്കുകൾ മുറിക്കുമ്പോൾ അവ ക്രിയയാണോ നാമമാണോ എന്ന കണക്കിൽ മോർഫോളജി ടാഗ് നൽകുകയും ചെയ്യും.
സന്തോഷിന്റെ ഗവേഷണഫലമായി ഒരു ലക്ഷം കോടി വരെയുള്ള എല്ലാ അക്കങ്ങളെയും വാക്കുകളാക്കാനും തിരിച്ചു വാക്കുകളെ അക്കങ്ങളാക്കാനും ഇപ്പോൾ സാധിക്കും. എട്ടര എന്നു പറഞ്ഞാൽ 8.30 എന്നാണെന്നും മനസ്സിലാക്കാൻ ഈ സംവിധാനത്തിനു കഴിയും. സാധാരണയായി കാണുന്ന പ്രത്യയരൂപങ്ങളും സമാസങ്ങളും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനിപ്പോൾ സാധിക്കും. പക്ഷേ, മലയാളം വാക്കുകളെ മുഴുവൻ മനസ്സിലാക്കിയെടുക്കാൻ ഇനിയും പ്രയത്നമാവശ്യമുണ്ട്.
ഭാവി, മെഷീൻ ലേണിങ്
രാജു എന്നൊരു വാക്ക് ഒരു വാചകത്തിലുണ്ടെങ്കിൽ അതൊരു വ്യക്തിയുടെ പേരാണെന്നു കംപ്യൂട്ടറിനു മനസ്സിലാകണമെങ്കിൽ ഇത്തരം പേരുകൾ, സ്ഥലനാമങ്ങൾ തുടങ്ങിയവയുടെ വിപുലമായ വിവരശേഖരം ആവശ്യമാണ്. എന്നാൽ എന്നുമിങ്ങനെ വാക്കുകൾ ചേർക്കുക അസാധ്യമായതിനാൽ മെഷീൻ ലേണിങ്ങാണ് ഇനിയുള്ള ഭാവി. ഉദാഹരണത്തിന്, മാർട്ടിൻ എന്ന പേര് വിവരശേഖരത്തിലില്ലെങ്കിലും വാചകത്തിലെ മറ്റു വാക്കുകളുമായുള്ള ബന്ധം മനസ്സിലാക്കി മാർട്ടിൻ എന്നത് ഒരു വ്യക്തിയുടെ പേരാണെന്നു മനസ്സിലാക്കാൻ മെഷീനു സ്വയം കഴിയണം. പിന്നീട് മാർട്ടിൻ എന്നു കണ്ടാലുടൻ പേരാണെന്ന് ഒറ്റനോട്ടത്തിൽ തിരിച്ചറിയാനും കഴിയണം.
ഗവേഷണം പൂർണതോതിലെത്തിയാൽ ആപ്പിൾ സിറി, അലക്സ, ഗൂഗിൾ ഹോം പോലെയുള്ള വോയ്സ് അസിസ്റ്റന്റ് സേവനങ്ങളിലും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ കാലത്ത് കംപ്യൂട്ടറുമായുള്ള ആശയവിനിമയത്തിലും മലയാളത്തിനും സുപ്രധാനമായ സ്ഥാനം ലഭിക്കുമെന്നാണു പ്രതീക്ഷ.