КІРУАккаунтыңыз жоқ па? Тіркелу

Құпия сөзді ұмытып калдыңыз ба?

THE STATE LANGUAGE DEVELOPMENT INSTITUTE

МЕМЛЕКЕТТІК ТІЛДІ ДАМЫТУ ИНСТИТУТЫ

  ИНСТИТУТ РАЗВИТИЯ ГОСУДАРСТВЕННОГО ЯЗЫКАБАТЫРЛАР ЖЫРЫ КЕЙІПКЕРЛЕРІН БІРІЗДЕНДІРУ

ТОЛЫҒЫРАҚ

    Кеңес Одағы кезіндегі кейбір ғажайып бастамалар заман өзгерісіне қарай құбылып, шешімі кезек күттірмейтін көптеген мәселелерге көзқарас басқаша қалыптасып, әрі қарайғы жалғасы табылмай қалғаны қазіргі кезде құпия бола қоймас. Солардың бірі – түркі тілдерінің, оның ішінде қазақ тілінің машиналық (компьютерлік) қорын жасау мәселесі.
    Осы айтылған мәселенің қысқаша тарихы мен мән-жайына тоқталайық.
    Электронды есептеу машиналарының (ЭЕМ) көмегімен ұлттық тілдерді зерттеу мен одан туындайтын ақпараттарды автоматты түрде танып-білудің негізінде ХХ ғасырдың 80-жылдарынан бастап тілдердің машиналық қорын (базасын) жасау жұмысы жайлы ой-пікірлер жүзеге аса бастаған болатын. Осыған байланысты 1983 жылы Мәскеуде шақырылған Бүкілодақтық ғылыми конференцияның күн тәртібіне орыс тілілінің машиналық қорын жасау проблемасы алғаш рет қойылды. Бұл ғылыми мәжілісте ЭЕМ-ның жадына түсірілетін тілдік қордың құрамы мен құрылымы қандай болуы керек екендігі, бірінші кезекте мұндай қор қандай міндеттер атқаратыны, тіл көздерінің ауқымы қандай болмақтығы жайлы және т.б. көптеген мәселелер қаралған болатын. Сонымен бірге электрондық тіл қорын дәйекті түрде тұтыну үшін қандай ұйымдық және техникалық шаралардың атқарылу қажеттігі де ортаға салынып, жан-жақты талқыланды.
    Аталған ғылыми конференцияның шешімдерінің орындалу жағдайын қадағалау мен жаңадан туындайтын мәселелерді шешу қажеттігінен 1987 жылы Мәскеуде ашылған Бүкілодақтық екінші ғылыми конференцияда осы саладағы ғалымдар тағы да бас қосты. Бұл ғылыми форумға Қазақстанның және басқа да ұлттық республикалардың ғалымдары қатысты.
    Мәжілісте өткен төрт жыл аралығында орындалған жұмыстардың нәтижелерінің сөз болуымен қатар, басқа да ұлт тілдерінің машиналық қорларын жасау мүмкіншіліктеріне байланысты соны мәселелер қарастырылды. Ерекше атап кетерлік жәйт – осы ғылыми жиында, орыс, украин, грузин, эстон тілдеріне қатысты баяндамалардың қатарында қазақ тілінің машиналық қорын жасау мәселесі де өз алдына тыңдалды.
Сөйтіп, орыс тілінің машиналық қорын жасау мәселесіне арналған екінші ғылыми конференцияның шешімдерінде қазақ мәтіндерін ЭЕМ жадына енгізу және оны автоматты жолмен статистикалық тәсілдермен зерттеу бағытындағы қазақ ғалымдарының қол жеткізген нәтижелері ескеріліп, түркі тілдерінің машиналық қорын жасайтын координациялық орталық Қазақ ССР ҒА Тіл білімі институтының құрамынан ашылсын деген дербес қаулы қабылданғаны біз үшін үлкен абырой болды.
    Көп ұзамай, 1988 жылдың мамыр айында Мәскеуде Кеңес Одағы түркітанушы комитетінің ХІVПленумы ашылып, оның күн тәртібіне түркі тілінің машиналық қорын жасау мәселесі арнайы қойылды. Бұл ғылыми жиында негізгі баяндамашылар ретінде Одақ бойынша белгілі ғалымдар: Р.Г.Пиотровский, А.М.Щербак, В.Г.Гузев өз ой-пікірлерін ортаға салып, ондай қор жасаудың қажеттігімен қатар алда тұрған қиыншылықтарын да атап өтті (Гузев, Пиотровский, Щербак). Ал қазақ тілінің машиналық қорын жасау мүмкіндігі жайлы мәселеге байланысты қазақстандық ғалымдар баяндама жасады (Қ.Б.Бектаев, А.Қ.Жұбанов).
    Тілдің машиналық қорының қажеттілігін алғаш дәлелдеп берген ғалым – информатика саласының белгілі маманы А.П.Ершов тілдің машиналық қорын құрастыру мәселесіне үлкен мән берген болатын (Ершов, 1979). Оған ғалымның 1978 жылы айтқан мына сөздері айғақ: «Орыс тілін сүйетін қоғамның (формалды қоғам) танымынша орыс тіл білімі дегеніміз әзірге ұйықтап жатқан Гулливер тәрізді, сондықтан менің ойымша, оның оянатын және өзі туралы бар дауыспен жар салатын кезі енді жетті. Ал ЭЕМ бұл ретте таптырмайтын қоңыраулы сағат секілді (Машинный фонд..., 7-12-б.). Бұл айтылғандар қазақ тілінің қазіргі жағдайының компьютерлік лингвистика саласына қатысты әлі де өз күшін жоғалтпаған тәрізді. Ал А.П.Ершов сол кездің өзінде-ақ аса білгірлікпен болжап, болашақ жасалатын орыс тілінің машиналық қорын тіл жөніндегі білімдердің аса қуатты концентраты (қоспасы) болады деп сенген.
    Мұндай формалды компьютерлік жүйе тілдің жаратылысына сәйкес әрі тең көлемді болуы қажет, сөйте тұра ондай тілдік модель «анатомиялық» тұрғыдан мүшеленген, ашық, бақылауға айқын, зерттеуге қолайлы әрі өзгермелі болуы тиіс деп ұйғарамыз. Алайда қазақ тілін модельдеуге қатысты біздің жетістіктерімізді үндіеуропа тіл білімінің статусымен және оның компьютерлік лингвистика бойынша алған нәтиже ауқымымен салыстырып қарайтын болсақ, біз өтпек жолымыздың әлі де бастауында тұрғанымыз айқын сезіледі.
    Көптеген ғалымдардың пікірін қорыта келе, біз «Қазақ тілінің компьютерлік қоры» атты жүйенің түсінігі – көп тармақты әрі терең автоматтандырылған жүйені аңғартады демекпіз және оның атқаратын міндеті ақпараттық барлау мен тілі білімі саласындағы (жалпы филология бағыттағы) зерттеушілік болуы тиіс. Ал ондай компьютерлік қор жасаудың методологиялық негіздері ретінде мынадай екі тезисті басшылыққа алғанды жөн санар едік. Оның біріншісі – тіл жөніндегі деректердің қандайы болмасын лексикографиялық пішінге келтірілу қажеттігі, ал екіншісі – лексикографиялық жағынан жүйеленген тілдік мәліметтердің барлығын да алгоритмдер тіліне лайықтаудың керектігі.
    Тілдік бірліктердің (ақпараттардың) лексикографиялық пішінде көрініс табуы олардың сөздік түріндегі жұмыстардың идеясына жақындайды, ал мұндай тұжырым тілдік ақпараттарды шоғырландыратын бірегей түйін немесе түп қазық – жеке сөз, және ақпарат сақтағыштық қасиеттерінің негізінде белгілі бір жүйедегі сөз қорын және олар грамматикалық, стилистикалық, фонетикалық, контекстік т.б. пішінде көрініс табады, яғни ол барлық тілдік мәліметтер жүйесін сәулелендіреді деп ұйғарған жөн.
    Егер біз ана тіліміздің компьютерлік қорын құру методологиясына орыс тілінің машиналық қорын жасау тәжірибесіне сүйенсек, онда мынадай қор құрамын сақтауымыз қажет:
1) қазақ тілі компьютерлік қорының негізгі сөзтізбегі (генеральный словник);
2) қазақ мәтіндерін суреттеу қоры (иллюстративный фонд);
3) қазақ тілінің терминологиялық қоры;
4) қазақ тілінің академиялық сөздіктері мен грамматика қоры;
5) қазақ тілінің лингво-статистикалық қоры;
6) қазақ тілінің лексикографиялық қоры;
7) қазақ тілі процессорларының қоры;
8) қазақ тіліне қатысты лингвистикалық алгоритмдер мен комплексті сипаттағы теориялық және тәжірибелік мәліметтерді бірлікте қамтитын бағдарламалар қоры.
    Аталған құрамдағы қазақ тілінің компьютерлік қоры тілдік мәліметтердің сала-салаға жүйеленген банк ретінде де және тұтыну қажеттігіне сай қайта жинақталған тұтас күййінде де пайдалану мүмкіндігі алдын ала ескерілуі керек.
Қазақ тілі жөніндегі деректерді жинаудың, сақтаудың, талдаудың және салыстыра зерттеудің жаңа әдістеріне көшу, сондай-ақ лингвистикалық дерек көздерінің автоматтандырылған сөздіктер мен грамматикалар тәрізді жаңа түрлерін игеру ісі өмірге жанасымды және тиімді екені сөзсіз. Әрине, бұл үшін біз жалпыфилологиялық дәстүрлер мен мәдениетке, тілді танып-білуге, практикалық жалпы міндеттер тәжірибелерін мұқият ескеруге тиіспіз.
Болашақ қазақ компьютерлік қорының құрамындағы «қазақ мәтіндерін суреттеу қорының» мақсаттары мен міндеттері қандай болмақ?
    Бідің ұйғаруымызша, мұндай жүйелерде тұтас қалыптағы мәтіндер сақталуы қажет те және тұтынушының сұранысы бойынша сол мәтіндердің үзінділері, қор ішінде тұрған олардың нақты орны, сөзтұлғалардың статисткасы, сөзнұсқағыштардың толық тізімдері, сөздерге телулі цитаталар, жиілікті және кері әліпбилі сөздіктер көрініс табуы қажет.
    Компьютерлік қордың лексикалық сипаты түпнұсқа мәтіндерінің типіне байланысты деп санай отыра, қазақ тілінің жүйесін танытатын сөйленіс жағдаятына: көркем әдебиет тілін, газет-журнал тілін, ғылым мен техника тілін, оқу орындары тілін, сауда, дәріхана, емханалардағы және т.б. сөйленіс түрлерін жатқызуды қолдар едік. Әрине, қордың бұл түріндегі компьютер жадына орналастыруға қиындық туғызатын сөйленіс түрлеріне жататындар: диспуттар, сот процестері, жиналыстар, күнделікті әңгімелесулер, телефон арқылы сөйлесу, т.с. сияқты ауызекі сөйлесу тілінің үлгілерін жазып алу мәселесі.
    Келесі бір қомақты бірлік – ол терминдер мәселесі. Қазіргі ғылыми-техникалық және ісқағаздары мәтінінің негізгі өзегі терминдер екені айқын. Жалпы сөйлеу тілінің аясындағы сөздер емес, терминдердің тілдік қоршауы (мәнмәтіні) өзгеше бір тілдік жүйе, басқаша айтқанда, терминдер өрісі болып табылады. Осы аяда өмір сүретін термин үшін барлық ғылыми шығармалардың сөз қолданыс машықтары етене, ортақ болып келеді.
Осындай маңызды жұмыстардың келесі түрі – әр дәуірдегі мәтіндердің тілдік белгілерін ажыратып ала білу мәселесі. Осы мақсатта тіліміздегі диалектілік лексиканың біркелкі еместігін ескеретін болсақ, оларды компьютерлік қорға қосу жұмыстарының қазақ диалектологтары үшін ойланатын жақтары жоқ емес. Мәселен, олар бір жағынан ертедегі сөздер мен қолданыстардың ұлтқа, жазуға дейінгі үлгілері болып келсе, екінші жағынан басқа тілдерден енген сөздер, таралу өрісі шектеліп қалған сөздер немесе тіліміздегі жаңадан енген сөздер болуы да ықтимал.
Халық тілі сол халықтың жанды қазынасы болғандықтан, соның бүкіл болмысын барлық ерекшеліктерімен қоса қамту болашақ «Қазақ тілінің компьютерлік қорының» міндеті деп түсіну қажет сияқты.
    Жоғарыда сөз болған қазақ тіліндегі диалектілер секілді, әрі синхрониялық, әрі диахрониялық сипатта күй кешетін тіл – фольклордың тілі және жер-су аттарының тілі немесе топонимика.
Осы аталған тіл үлгілерін жинастырып, тіліміздің коомпьютерлік қорын жасауда, оның бұл аталғандардан басқа да салалары мен арналары қамтылары сөзсіз.
    Формалды пішіндегі қазақ тілінің компьютерлік қорын жасау мақсатымен байланысты күтілетін ең маңызды мәселелер мыналар деп білеміз:
а) тұтынушыға қажет болған белгілі бір сөзді қандай тіл көздерінен, мәтіндерден, тіл айырымдарынан іздестіру қажет;
ә) іздеуге тиісті сөз қарастыратын мәтінде қамтылған ба, жоқ па?
б) графикалық және фонетикалық пішіндерін қоса есептегенде сөздің мүмкін болған барлық түрлері мен тұлғасы айқындалып болды ма?
в) белгілі бір сөзге қатысты мәтін үзінділерінң (мәнмәтіндерінің) жалпы аумағы, сипаты анықталды ма?
г) белгілі бір сөз: қарастырып отырған семантикалық және грамматикалық сипатта өткен дәуірлердегі, көне ғасырдағы мәтіндерде қолданылған ба, егер қолданылса, қандай сөздіктерден көрініс тапқан?
    Міне, осы аталғандар қазақ тілінің компьютерлік қорын жасау мақсатындағы күн тәртібіне қойылатын ең маңызды мәселелер болуы қажет.
Жоғарыда сөз болған Совет түркологтары комитетінің ХІVпленумына қайта оралып, мәжілісте көтерілген негізгі мәселелерге тоқтай кетейік.
Алғашында мәжіліске қатысушылар, тілдің машиналық қорының анықтамасы төңірегінде пікір алмасып, соның нәтижесінде бір түйінге келді деуге болады.
    ЭЕМ-ның (компьютердің) араласуымен зерттелетін жекеленген мәселердің нәтижелерін, мысалы, жеке тұрып лексика-семантикалық, этимологиялық, морфологиялық, тіпті, синтаксистік есептерді шешетін машиналық бағдарламалардың жиынтығын немесе ЭЕМ-ның жадына енгізілген мәтіндер мен лексикографиялық материалдардың тұтастығын сол тілдің машиналық қоры, міне осы, деп есептеуге болмайтындығы баса көрсетілді.
Мәселен, ҚР БжҒМ А.Байтұрсынұлы атындағы Тіл білімі институтында компьютерлік лингвистика саласы бойынша біршама ғылыми жұмыстар орындалды. Оларды қысқаша былайша атап өтуге болар еді:
– көркем әдеббиет, көсемсөз, ғылыми-көпілік әдебиет пен оқулықтар мәтіндерінің, алғашында ЭЕМ-ның, кейіннен компьютердің жадына көптеп енгізіліп, олар бойынша арнайы компьютерлік бағдарламалар құрастырылуының негізінде әртүрлі жиілік сөздіктердің алынуы;
– М.Әуезовтың 20 томдық шығармалар жинағының мәтіндерінің компьютер жадына енгізілуі және соның негізінде жазушы тілінің жиілік сөздіктерінің жарық көруі;
– осы тәрізді жиілік сөздіктердің негізінде қазақ сөздерінің әр стильде және әр көлемді мәтіндерде қайталануының қосынды жиілігінің, сол мәтіндерді қамту статистикасының анықталуы;
– сөзтұлғалардың құрылымдық статистикасы мен мәтіндегі пайыздық салмақтарының әр сөз таптарына қатысты айқындалуы;
– қазақ тіліндегі негізгі сөз таптарының мәтін бойында кездесулерінің математикалық статистика мен ықтималдық теория заңдылықтарына бағыну-бағынбау жағдайларының анықталуы;
– қазақ тілінің «ТІЛ – ҚАЗЫНА» атты автоматтандырылған компьютерлік картотекалық қорының іске қосылуы;
– қазақ тіліндегі мәтін мазмұнын оның тұрпатына қарай ашудың (тұрпаттаудың, формалдаудың) негізгі принциптерінің айқындалуы;
– Тіл білімі институтында жоспарлы тақырыптар бойынша түзіліп жатқан түсіндірме, екі тілдік, бір тілдік сөздіктер мәтіндерінің компьютер жадына «сөздіктер қорын» құрап, тұрақты сақталуы.
    Міне, осы жұмыстар түрлерінің жиынтығын біз қазақ тілінің компьютерлік қоры деп атауымызға бола ма?
Жоқ. Себебі, бұл аталғандар жеке мәселелерді шеше алатын ғана бағдарламалар мен мәтіндік файлдар жиынтығы және олар бір-біріне тығыз байланыста болмай, тұтынушы сұранысына бейімделмегені әрі бір орталықтан басқарылатын комплексті түрдегі автоматтандырылған күрделі жүйе болмауынан деп білеміз.
    Жоғарыда сөз болып жатқан Пленум мәжілісінде түркі тілдерінің көпаспектілі машиналық қорын жасау қолданбалы ілімдердің мұқтаждығына сай жүзеге асырылуы тиіс екендігі баса айтылды.
Өкінішке қарай, мұшндай жақсы бастама сөз жүзінде ғана қалып, түркі тілдерінің көпаспектілі машиналық қорын өмірге келтіру әлі де болашақтың ісіне айналып отыр.
    Ал қазіргі жағдайда, ең алдымен, егеменді еліміздің мемлекеттік тіліне айналған ана тіліміз- қазақ тілінің компьютерлік қорын ғылыми тұрғыда құру – жаңаша ойлап, жаңаша шешудің ең тиімді жолы деуге әбден-ақ болады.
    Енді түркі тілдерінің көпаспектілі машиналық қорын құруға қажетті деп есептелетін түрліше салаларына (блоктарына) жалпылама сипаттама бере отыра, сол идеяны қазақ тілінің компьютерлік қорын жасау кезінде де пайдалануға болады-ау деген оймен, оның төменде аталатын тарамдарын оқырман қауымға ұмсынып отырмыз.
    1. Алдымен құрастыруды қажет ететін сала – лексикалық блок. Ол орфографиялық, орфоэпиялық, түсіндірме, терминологиялық, жиілік және аударма сөздіктерді қамтитын көпшілік қолды лексикографиялық жүйе болып табылады.
    2. Грамматикалық блок – лексикалық және грамматикалық морфемалардың тізбелерінің жиынтығынан, сондай-ақ синтаксистік модельдерді (сызбалық) қамтитын тілдік материалдардан құралады.
    3. Фонетикалық блок – тілдің фонемалық құрамын анықтайды, әр фонеманың айырым (дифференциал) белгілерінің анықтамалары беріледі.
    4. Морфонологиялық блок;
    а) тілдік бірліктердің фонемдік құрылысының ерекшеліктері жөніндегі деректер қамтылады. Мәселен, негіздер, форманттар, сөздердің жекелеген кластары (бейнелеуіш сөздер) т.б.;
    ә) тілдің сингорманизм заңдылығы, сондай-ақ дауыссыз дыбыстардың ассимиляциясы, қатаңдауы мен ұяңдауы жайындағы мәліметтер ескеріледі;
    б) екпіннің орны көрсетілген түбір негіздер мен сөз-формалар жинақталады.
    Міне, осы аталған салалардың бәрін жан-жақты қамти отыра, қажетті деген сұранысқа толық та және тұжырымды жауап алу үшін біз соңғы ғылыми-технологиялық жетістіктерді пайдалана отырып, әрі жүйелі, әрі сапалы түрде көрініс табатын ғылыми тұрғыдағы қазақ тілінің компьютерлік қорын іске қосуымыз қажет.
    Ұсынылып отырған жоба іске асып жатқан жағдайда мынадай сұрақ туындауы мүмкін: «Қазақ тілінің компьютерлік қоры» жасалып болғанннан кейін ол тек архив тәрізді қызмет ете ме, әлде ол тіл жөніндегі жаңа білімдер қосатын, жаңа мәліметтер тауып беретін ғылыми зертхана тәрізді болмақ па?
    Бұл ретте айтарымыз, екі жақты құбылыстың соңғысы алғашқы қисынның барлық қасиеттерін иемденетіндігі себепті, оның берер мүмкіншіліктері де молырақ болмақ. Демек, «Қазақ тілінің компьютерлік қоры» бізге белгілі бір тілдік заңдылықтар жөніндегі мәліметтерді бойына жинақтаған тілдің синхронды және диахронды процестерін модельдей алатын әрекет үстінде болуы қажет. Сонда ғана компьютерлік тілдік қор түрлі деңгейдегі тіл қабаттарымен жүйелі негізде қызмет ететін болады. Басқаша айтқанда, «Қазақ тілінің компьютерлік қоры» дегеніміз қазақ тілі жайлы барлық мәліметтерді жинақтаушы банк, бірақ ол «ақылды», мамандандырылған білім қоры. Оны өзімізге дәстүрлі кітап ретінде де пайдалануға болады және зерттеуші өз ұсыныстарын белгілі бір мақсаттарға жүзеге асыра алады деген сенімдеміз.
    Осы саладағы белгілі ғалымдардың тұжырымдауынша, компьютерлік тілдік қор дегеніміз ғылым адамының өз зерттеу нысанына жаңаша түрде көз салудың мүмкіндігі болып табылады. Мұндай тілдік қор неғұрлым қомақты болса, солғұрлым тіл құрылысының сырын терең алады, сөйтіп зерттелетін нысан жөніндегі түсініктердің шеңбері кеңиді, адамның білім өрісіндегі «ақтаңдақтардың» бедер-бейнесі айқындала түседі.
Біздер осы айтылғандарға қосыла келе, өз атымыздан «Қазақ тілінің компьютерлік қоры» зерттеуші адамның қалып-қабілетін әлденеше есе арттырады, шығармашылық қуат көздері ашыла түседі, сөйтіп бұл жаңа мүмкіндіктер қазақ тілінің жүйелілік қасиеттерін жетілдіруге және тіл жүйесін мұқият тануға жұмсалар еді деп тұжырымдар едік. Әрине, бұл аталып отырған тілдік қорды өмірге келтіру үшін оның жоба жолдары мемлекеттік дәрежеде, яғни ҚР Білім және ғылым министрлігі, Тіл комитеті деңгейінде қаралуы қажет. Себебі мұндай жалпы филологиялық, ұлттық және мәдениет дәрежесіндегі күрделі жүйені іске қосу – қажетті мамандарды (жоғары дәрежелі инжинер-бағдарламашыларды, компьютерлік лингвистика саласының мамандарын және т.б.) және тиісті қаражат мүмкіндігін шешуді талап етеді.
    Сөз соңын, машиналық қор жайындағы идеяны осыдан ширек ғасыр бұрын ең алғаш рет ұсынған информатика саласының белгілі ғалымы А.П.Ершовтың сол кездердегі айтқан сөзімен қорытындылағымыз келіп отыр.
    А.П.Ершов 1978 жылы жарқ көрген «Іс қағаздар прозасының феномені: диалогтар жүйесін жасау методологиясына» атты мақаласында: «Егер орыс тілінің машиналық қорын жасау мақсаты ойдағыдай орындалса, модельдеу мен алгоритмдерді құрастыру саласындағы қол жеткен табыстарымыздың бәрі академиялық жаттығулар қалпында қалып қоймай, іс жүзіне асқан болар еді, мұндай өте-мөте қажетті проблеманың шешілуі ғылым, мәдениет және қолданбалы техникалық тәсілдер тұрғысынан мейлінше құнды болмақ. ... Тілдің машиналық қорын жасау ісі өндірістік лингвистикалық жүйелерді іске қосудан озық болуы тиіс, өйткені тек осы жағдайда ғана толып жатқан қажетсіз қайталаулардан құтылып, тілдің жанды өзегін озбырлар мен дүмшелердің қиянатынан аман сақтап қалуға болады» (Ершов, 1979).

Пайдаланылған әдебиет

Гузев В.Г., Пиатровский Р.Г., Щербак А.М.,О создании машинного фонда тюркских языков // Советская тюркология. 1988. №2. С. 98-101.
Ершов А.П.К методологии построения диалоговых систем: феномен деловой прозы. Препр. №156. ВЦ СО АН СССР. Новосибирск, 1979.
Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986. 240 с. 

ПІКІР АЛМАСУ

Пікір қалдырыңыз