КІРУАккаунтыңыз жоқ па? Тіркелу

Құпия сөзді ұмытып калдыңыз ба?

THE STATE LANGUAGE DEVELOPMENT INSTITUTE

МЕМЛЕКЕТТІК ТІЛДІ ДАМЫТУ ИНСТИТУТЫ

  ИНСТИТУТ РАЗВИТИЯ ГОСУДАРСТВЕННОГО ЯЗЫКАБАТЫРЛАР ЖЫРЫ КЕЙІПКЕРЛЕРІН БІРІЗДЕНДІРУ

ТОЛЫҒЫРАҚ

    Қазақ тілін зерттеу тәжірибесінде лексикографиялық жұмыстарды электронды-есептеуіш мәшинелер (ЭЕМ) көмегімен автоматтандыру мәселесі 1973 жылдан ғана бастама алды. Алғашқы тәжірибе ретінде М.Әуезовтің «Абай жолы» романының, ал содан кейін 20 томдық толық шығармалар жинағының мәтіндері ЭЕМ жадына жазылып, арнайы бағдарламалар көмегімен неше түрлі жиілік сөздіктер алынды. Міне, осындай жиілік сөздіктердің негізінде ұлы жазушының тіл байлығы мен стильдік ерекшелігі жайында бірнеше ғылыми зерттеулер жүргізіліп, ғылыми диссертациялар қорғалды. Келесі тәжірибе ретінде істелген ғылыми жұмыс – А.Байтұрсынұлы атындағы Тіл білімі институтында көп жылдар бойы жинақталып-теріліп, қазақ тілінің бірден-бір «тіл байлығы» деуге болатындай, институттың «сөз қоржынында» сақталған қазақ тілінің картотекалық қоры (көлемі 5 млн. жуық). Оны сан мен сапа жағынан сұрыптап, компьютер жадына түсіріп, автоматты түрде пайдалану қажеттігі тек бүгінгі таңға ғана емес, оның болашағының маңыздылығында. Әрине, осындай үлкен көлемдегі сөз қорын автоматтанған жүйеге айналдырмайынша, оны тілші қауымының ойдағыдай пайдалану мүмкіндігі және сол күйінде сақтап әрі үнемі жаңартып тұру оңайға түспейді. Сондықтан алғашында «Қазына» атты, ал қазірге кезде жаңартпа түрдегі «Тіл – қазына» деп аталатын автоматтандырылған картотекалық қор (немесе қазақ сөзінің компьютерлік базасы) құрастырылды.
    «Тіл – қазына» атты қазақ сөзінің компьютерлік базасының негізгі мүмкіндіктерін қысқаша сөз ететін болсақ, олар мынаған саяды:
– қажетті деген сөзге немесе сөзформаға қатысты дәйексөздерді (мәтін үзінділерін) лезде тауып алып, олармен компьютердің экраны арқылы немесе қағаз бетіне басып шығарып танысу мүмкіндігі. Мұндай әрекетті кәртішкі мәтіні ішіндегі сөзқолданыстар бойынша да жүзеге асыру алдын ала қарастырылған;– қажетті деген сөзге немесе сөзформаға (олардың бастапқы, ортаңғы, соңғы бөліктеріне) байланысты кәртішкі ақпаратын, оның авторына, шығарма, баспа аттары мен шыққан жылдарына қатысты іздеп табумүмкіндігі;
    «Тіл – қазына» атты қазақ сөзінің деректер базасындағы кәртішкілік мәтіндерді өңдеуге, өшіруге немесе жаңарту мүмкіндіктері ескерілген.
Қазақ сөзінің «Тіл – қазына» атты деректер базасы картотекалық қордың барлық міндетін атқарумен бірге, ол енді сөздіктер мен мәтіндерді бейнелеу қорына да айналып отыр. А.Байтұрсынұлы атындағы Тіл білімі институтының іргелі (2006-2008жж.) және қолданбалы (2007-2009жж.) зерттеу бағдарламалары бойынша «Компьютерлік лингвистика» ғылыми тобының атқарып жатқан ғылыми жұмыстарының нәтижелері осының айғағы. Қазақ лексикасының түсіндірме сөздіктері негізіндегі «Тіл – қазына» деректер базасын іске қосу мақсатына сай зерттеу жұмысының нысаны Тіл білімі институтында құрастырылып, 1968 жылы жарық көрген «Абай тілінің сөздігі» мәтіні (6 мың сөз, 1 мыңдай сөз тіркес), 1999 жылы баспадан шыққан «Қазақ тілінің сөздігі» (50 мың сөз) және жаңадан құрастырылып жатқан 15 томдық «Қазақ әдеби тілінің сөздігінің» алғашқы алты томының мәтіні. Сол сияқты «Ұлттық идея – Қазақстанның даму негізі» бағдарламасы бойынша: «Қазақ тілінің терминологиялық қорының компьютерлік базасын жасау және оны терминдік әлеуеті жоғары дереккөздермен толықтыру» атты ғылыми-зерттеу жұмысының негізгі нысаны салалық екітілді (қазақша-орысша, орысша-қазақша) терминологиялық сөздіктер мен қазақ тіліндегі салалық терминологиялық түсіндіме сөздіктер материалдары да өз алдына «Тіл – қазына» атты деректер базасынан орын алатынын айтуға болады.
    «Қазақ ұлттық әдеби тілі және оның Уақыт пен Кеңістіктегі даму жолдары: ұлттық, жалпыадамзаттық мәдени құндылықтарды жинақтау, сақтау, жаңғырту» ғылыми бағдарламасы бойынша 2009-2011 жылдарға жоспарланған «Мәдени құндылықтар ретіндегі қазақ тіліндегі мәтіндер корпусы және сөздіктердің “Тіл – қазына” атты ұлттық компьютерлік қоры» атты тақырып бойынша ғылыми-зерттеу жұмысы жүргізіле бастады. Бұл тақырыптың «Корпустық лингвистика» саласына тікелей қатысты бар. Сондықтан толық мәтіндердің компьютерлік қорының нысандары ретінде Мұхтар Әуезовтің, Әбіш Кекілбаевтың, Мұқағали Мақатаевтың, Мұқтар Мағауинның толық шығармалар жинақтарының мәтіндері қарастырылады.
    Компьютерлік қор жасаудың негізгі мақсаты – зерттеуші-тілшінің жұмыс орнын толығымен автоматтандыру. Осының арқасында зерттеушінің уақытын барынша үнемдеу, яғни қажетті тілдік ақпаратты іздеу жұмысы мен тілдік бірліктерді реттеу және т.б. іс-әрекеттерді жеңілденетіні сөзсіз. Сонымен бірге тілдік процестерді автоматтандыру мәселесі тоқырап қалмай, үнемі жетілдіру жағынан өзінің жалғасын тауып тұруы қажет. Егер ана тілімізге күн сайын жаңа сөздер, жаңа қолданыстар мен жаңа терминдердің еніп отыратынын ескерсек, мұндай зерттеу – күн тәртібінен түспейтін әрі ұтымды, әрі заман сұранысына сай зерттеу деп білеміз.
    Қазақ тілінің автоматты лексикографиялық базалары тілші-лексикографтарды немесе кез келген тұтынушыны қажетті деген ақпаратпен қамтамасыз ету және тілдік материалдарды іздеп табу әрекетін барынша жеңілдететіні сөзсіз. Сөздік мақала құрылымын шаблондау (бір үлгіге келтіру) және үлгіленген дайындаманы шағын көлемдегі сөздіктерге реттілікпен ұсыну сөздіктің жүйелілігі мен нұсқаулыққа сай келуін қамтамасыз етеді. Ал нұсқаулықтар ақпараттық-есептеуіш жүйе арқылы әр уақытта бақылауда болатын жобалық тапсырмаға айналады. Міне, осының нәтижесінде сөздік құрастыру барысы үлкен ғимараттарды, ірі техникалық нысандар мен жүйелерді автоматты жобалау үдерісіне ұқсас жүзеге асады деуге әбден болады.
Автоматтандырылған қазақ лексикографиясының іргелі мәселелерінің қатарында: тілді құрылымдық-семантикалық және функционалды-стильдік ең кіші бөлікке дейін жіктелген дереккөздердің саралап топтастыру бағытында зерттеулер жүргізу; сөздік мақаланың жалпылама құрылым-формасының сұранысына қатысты сөздіктерді автоматты түрде жобалау; мәтіндік және сөздік массивтерді индекстеу құралы ретінде автоматтанған морфемдік анықтағыштарды құрастыру мәселесін зерттеу т.б. атауға болады.
    Әрине, бұл қазақ тіл білімі үшін принципті тұрғыда жаңа зерттеу нысаны болғанымен, үнді-еуропа тілдерінде ғалымдар бұл мәселелермен шұғылданып келеді. Оны ғылыми-техникалық революцияның қажеттігіне байланысты сапаның жаңа деңгейіне назар аудартудан туындаған жаңаша тұжырым ретінде қабылдау керек.
    Жаңа мәселелер қазақ тіл білімінің аталған салаларына әрі жаңа, әрі жоғарғы деңгейдегі міндет жүктейді. Қазақ тілінің мәтін семантикасы мен лексикасы аясындағы ғылыми зерттеулердің және түсіндірме сөздіктердің маңызы арта түседі. Бұл мәселе «жасанды интеллектіні» құрастыру ісіне тікелей қатынасы бар, яғни «қазақша ойлай алатын» зияткерлі роботтарды басқаруда да аса маңызды. Қазақстан өндірісін қазақ тілінде толық автоматтандыруға жол ашылады, еңбек тиімділігін арттырып, әсіресе адамдардың денсаулығына зиян келтіретін аса қиын орталарда «қазақ роботтарын» пайдалануға мүмкіндік туады.
    Осыған байланысты «Қазақ әдеби тілі» ұғымын анықтай түсу қажет болады. Ол үшін өндіріс пен басқару тілін, ғылым тілі мен ғылыми-техникалық құжаттар тілін, халықшаруашылық салаларына тілдік қатынастардың барлық түрлерін енгізу қажет. Сонда ғана қазақ тілінің ұлтаралық және халықаралық қызметі күшейеді. «Қазақ әдеби тілі» ұғымының кеңеюі, тілдің функционалды-стилистикалық саралануы жетіліп, жаңаша тұрғыда нақтыланып келеді. Сөздіктер мен грамматикаларда ескерілетін тілдік формалардың түрлері де ұлғаюда.
    А.Байтұрсынұлы атындағы Тіл білімі институтында жаңадан құрастырылып жатқан 15 томдық академиялық «Қазақ әдеби тілінің сөздігінде» әдеби тілдің кеңейтілген ұғымы мен оның түрлі бағыттары ескерілуде. Яғни аталған сөздік нормативті-стилистикалық сипатта болуымен қатар, қазақ мәтінін автоматты өңдеудің де құралы болады деген сенімдеміз. Сонымен, қазақ әдеби тілінің сөздігіәрі өте бай, әрі формалды түрде айқын ақпаратты және сөздердің синтаксистік және семантикалық қасиеттерін толық қамтуды мақсат ететін сөздік болады деп сенім артамыз. Осындай ғылыми еңбектердің дамуы, қазақша мәтіндерді автоматты өңдеудің әдіс-тәсілдерін меңгеруге, әдебиеттану саласын автоматтандыруға да негіз болары сөзсіз. Нәтижесінде жаңа басылымдарды автоматты дайындау, ғылымдарға ақпараттық-анықтағыштық қызмет атқару, мәтіндерге қатысты анықтағыш құралдар дайындау, ғалымдардың зерттеу тәжірибесіне автоматтанған картотекаларды пайдалану және т.б. мәселелер қолға алынғаны жөн.
    Қазақ тілін зерттеушілер үшін арнайы компьютерлік орталық ашылып, оларда бағдарламалау тілдері, деректер қоры, лингвистикалық салада қолданылатын бағдарламалар пакеттері және т.б. жинақталуы қажет. Сонымен бірге бірнеше рет қолданылған мәтіндер, сөздіктер, ақпараттық материалдар, қоғамдық пікірге қатысты сұрақ-жауаптар және т.б. материалдар да қорлануы керек. Алғашында «тырнақтап» жинақталған архивтік қор болашақта тілшілердің, әлеуметтанушылардың, тарихшылардың зерттеулеріне аса құнды материал болуы мүмкін. Мәселен, сөздіктерді, анықтағыштарды, энциклопедияларды, жинақтарды, оқулықтар мен оқу құралдарын, белгілі оқырман аясына бейімделген әдеби және ғылымикөпшілік шығармаларын компьютер жадында сақтау технологиясын меңгеру ісі өте маңызды. Әрине, гуманитарлық зерттеулерге арналған компьютерлік орталық гуманитарлық білім иелерін, яғни маман емес тұтынушыларды дайындайтын оқыту орталығына айналғаны да жөн болар еді деп санаймыз.
    Жаппай автоматтандыру заманында қоғамның әрбір мүшесі белгілі дәрежеде, «компьютерді пайдаланушы» болып саналатыны мәлім. Сондықтан білімнің гуманитарлық саласына, әсіресе қазақ тіл біліміне, компьютер мүмкіндігін толығымен пайдалану егемен еліміздің дамуына қосқан зор үлес болар еді.
    Әлемдік өндірісті интеграциялау кезеңінде әртүрлі түсініктерді бірізге түсіру ісі де аса қажет болуда. Сондықтан егемен Қазақстанның халықаралық деңгейге шығуына және бірқатар жетекші елдермен қазіргі таңдағы ғылым мен технологияның әртүрлі салаларында ғылыми және өндірістік ақпараттармен алмасудың айтарлықтай ұлғаюына байланысты неғұрлым кең ауқымды қамтитын көптілді сөздіктер шығару қажеттілігі де туындауда.
Міне, осы аталған жайттар қазақ сөзінің «Тіл – қазына» атты ұлттық деректер базасын жасауды жаңа технологияға көшу негізінде жүзеге асыру бүгінгі күн тәртібіне қойылатын ең маңызды мәселелерінің бірі деуге болады.

Асқар Жұбанов
А.Байтұрсынұлы атындағы Тіл білімі 
институтының бас ғылыми қызметкері, 
филология ғылымдарының докторы


ПІКІР АЛМАСУ

Пікір қалдырыңыз