Мамбетаев О.А.   Калимолдаев М.Н.   Мусабаев Р.Р.  

Қазақ сөзін танып білу және синтездеу жүйесін әзірлеу

Докладчик: Мамбетаев О.А.

Қазақстан Республикасының мемлекеттік тілі болып табылатын қазақ тілінің қолданыс аясы күннен-күнге артқан сайын оған деген ғылыми қажеттілік те өсіп келеді. Қазақ тілін қоғамдық және ғылыми салада қолдану мен өркендетуде барынша жағдай жасалып, оның жан-жақты әлеуметтік-коммуникативтік рөлін арттыру өмір талабына айналып отыр.
  Осы мақсатта тілімізді дамытуға қажетті сан салалы сөздіктерді көптеп шығару қазіргі кезеңде үлкен сұраныс тудырып отырғаны анық. Қазақ тілін өрістету бағыты оның мемлекеттік мәртебесін іске асыру қажеттілігімен айқындалады.
  Қазіргі кезеңде қазақ тілін дамытуда ғылыми-лингвистикалық зерттеулер жүргізу мен олардың нәтижелерін нақты іске асыру арқылы қазіргі қазақ әдеби, ғылыми, салалық тілінің сөзжасам процестерін, оның ішінде терминжасам қағидаттарын ғылыми негізде жүйелеу, қазақ тілінің толыққанды терминологиялық жүйесін қалыптастыру мақсатында біршама жұмыстар жүргізілуде. Қазақ тілінің ортақ нормаларын жүйеге келтіру арқылы тілдік, сөздік қорымызды байыта түсетініміз айқын.
  Осыған байланысты құрылымы мен мазмұны жағынан жалпы жұртшылықтың сұранысына ие, қолданылуына қолайлы, қол жетімді сөздіктер шығару қажеттілігі туындап отыр. Тіліміздің мемлекеттік мәртебесін алға тарта отырып, оның қолдану аясын кеңейту мақсатында жаңа заманға озық технологиялық жетістіктердің көмегімен көрсету міндеті тұр.
  ҚР БжҒМ ҒК «Информатика және басқару проблемалары институты» мемлекеттік бағдарламаларға берген тапсырысты жүзеге асыру негізінде «Қазақ тілінде мәтін бойынша сөздерді синтездеуге арналған автоматтық жүйесін әзірлеу» жобасын іске асыруда.
  Бұл жоба Институт директоры М.Н.Қалимолдаевтың тікелей басшылығымен жүргізіліп, техника ғылымдарының кандидаты Р.Р.Мұсабаевтың ғылыми жетекшілігімен жүзеге асуда.
  Институттың жетекші мамандарының  құрастыруы бойынша бұлтты веб-сайтымызбен қоса, қазақ тілінде бағытталған сыналатын технолгиялық үлгілерін ұсынады:
• Сөздерді синтездеу;
• Сөздерді танып білу;
• Морфологиялық анализатор мен қазақ тілінің сөздігі.
LinProc v1.0 Морфологиялық анализатор қазақ тіліндегі мәтіндерді игеру мақсатында қазақ тілі лексикасының, оның ішінде 150 мыңнан астам сөздік қоры бар әдеби сөзі еніп отыр. Сонымен қатар қазақ тіліндегі барлық қосымшаларының, сөздер мен сөз тіркестерінің сөздігі біріктірілді. Морфологиялық анализатор алгоритм жүйесіне енгізілді. Компьютерлік жүйеге орнатылған қазақ мәтіндерін танып білуде лексикалық, морфологиялық анализатор автоматтық бақылау негізінде мәтіндік жұмыстардың орфографиялық тексеру арқылы іске асады.
  Сонымен бірге институтымызда ақпаратты технологиялардың жетістігін молынан қолданып жатқан «Uniline Group» ЖШС жұмыс атқарады. «Uniline Group» ЖШС үздіксіз даму үстіндегі, ақпаратты технология саласында қарқынды өсіп келе жатқан ірі компания. «Uniline Group» информациялық технология әлеміндегі мүмкіндіктерді бағындыруға ұмтылған компаниялардың бірі.
Қазақ  тілінде  мәтін бойынша сөздерді синтездеуге арналған автоматтық жүйесін әзірлеу Жобаның негізгі мақсаты ғылыми-зерттеу жұмыстарын жүргізуде қажетті қазақ тіліндегі сөздерді синтездеуге арналған автоматты жүйені  кеңінен қолдану. Негізгі түпкі нәтиже қажетті бағдарламалық өнімдер әзірлей отырып, олардың қолданысын арттыру болып табылады.
Аталмыш технология тиімділігімен басқа да жобалардың бастамасы бола отырып, көптеген жоғарғы  технологиялық өнімдер пайда болады. Осындай технологиялық өнімдердің қолданысы мен сапасы артқан сайын қазақ тілінің қолданысы кеңейе түсері анық.
Тілді оқытуды әзірлеудегі виртуалдық жүйесі (лингвистикалық тренажерлар)  Интенсификация үдерістің дамуы мен ақпараттық қоғамға бет алу, жаңа ақпараттық- технологиялар, комьютерлік құрылғылар мен телекоммуникацияның қарқынды дамуына байланысты қазақ тілін оқытудың жаңа бағыттары мен әдіс-тәсілдерін әзірлеу. Жобаның мақсаты виртуалдық жүйені зерттей отырып, сөйлеу негізінде қазақ тілін оқытудағы  машина- адам интерфейсін әзірлеу. Қолданыстағы оқу тілдері: қазақ тілі, орыс тілі, ағылшын тілі болып табылады.
Жүрек-қан тамырлары ауруларының айқындамалық  аппараттық -   бағдарламалық  кешенді  талдауды пульс сигналы арқылы жүзеге асыру Қазақстан халықтарының арасындағы өлімге апаратын себептердің бірі – жүрек-қан тамырлары аурулары. Бұл жұмыстың негігі міндеті жүрек-қан тамырлары ауруымен зардап шегетіндердің санын азайту мақсатында пульс сигналдары арқылы айқындамалық жүйе әзірлеу. Алдынғы қатарлы үздік технологияларды қолдану. Жоба мақсаты жүрек-қан тамырлары ауруларының айқындамалық, аппараттық-бағдарламалық кешенді талдауды дамыта отырып пульс сигналы арқылы жүзеге асыру.
Мұнай - газ саласындағы әмбебап аппараттық - бағдарламалық кешенін, автоматтық  бақылау  технологияларын әзірлеу  Мұнай-газ саласындағы әртүрлі өндірістік шешімдерді іске асыру үшін түрлі технологияларды дамытып қана қоймай, зияткерлік үрдісті қолдана отырып технологияның басқару тетіктерін дамыту. Аталған зерттеу әдісі бұрынғы жұмыстарға қарағанда республиканың әр аймақтарында, жақын және алыс шет елдерде қолданысқа түсіп, әмбебап әдістерін алдынғы қатарлы технологиялық үдеріспен машина- адам интерфейсін әзірлеу. Жобаның негізгі мақсаты мұнай-газ саласында түрлі әмбебап ақпараттық-бағдарламалар кешенін құра отырып, автоматтандырылған бақылау жұмысын түрлендіру, технологиялық үдерістерді әзірлеу.
  Жобаның тағайындалуы мен мақсатына келетін болсақ:
1. Мәтінді табиғи дауыта тыңдату және оқуға мүмкіндік беретін сөздерді синтездеу технологиясын әзірлеу.
2.  Сөзді мәтінге айналдырудың кері міндетін шешетін қазақ сөзін танып білу технологиясын әзірлеу.
Ақпараттық - телекоммуникациялық технологиялар саласы бойынша қолданылады. Бағдарламалық жасақтама ДК және смартфон арқылы қазақ сөзінің синтездеу жүйесін тану.
Әлеуметті тұлғалар: Мемлекеттік мекемелер, ДК жеке қолданушылар, ИТ компаниялар, Медиа- компаниялар, Смартфон , Аудио-кітап қолданушылар, Қоғамдық зағип адамдар, Арнайы орталықтар т.б өкілдер қолдана алады.
Өнімнің негізгі атқаратын қызметі:
1. Арнайы орталықтарына арналған бағдарламалық жасақтама
2. Кітап тілі
3. «Умный дом» жүйесі
4. Қазақ сөзін танып білуге арналған бағдарламалық жасақтама
5. Қазақ сөзінің синтезіне арналған бағдарламалық жасақтама
6. Бағдарламалық жасақтамаға арналған ақпараттық дүңгіршек
7. Бағдарламалық жасақтамаға арналған дауыс биометрі
  Қазақ сөздерін мәтін бойынша ситездеуде іске асыруда негізінен электронды қазақтілді диктор болып табылады. Сөздерді синтездеу жүйесіне қазақ тіліндегі мәтін жүктеледі. Синтездеу жүйесінің жүктеу жұмысы аяқталған соң компьютер адамның табиғи дауысымен мәтінді оқи алады. Мәтіндегі кездесетін қазақ тіліне тән заңдылықтарды (үтір, екпін, интонация т.б.) сүйене отырып жүзеге асырады. Сөздердің синтездеуде дауыс компьютердің дыбыс динамикасы арқылы іске асады. Сонымен қатар қолданылған синтезделген сөздерді (мәтін) қайтадан қолдану мақсатында арнайы ішкі мультимединдық файлға сақтауға мүмкін бар. Синтездеудің көптеген әр түрлі бағыттарына мүмкіндіктер бар. Синтез әр түрлі дауыстармен (ер, әйел, бала), түрлі дауыс тембрымен және дауыс ырғағымен іске асып отырады.
Қазақ сөздерін автоматты түрде танып білу технологияларының сипаттамасы  Қазақ сөздерін автоматты түрде танып білуде мәтін оқылуында компьютерлік жүйенің ықпалы зор. Бұл аталмыш жүйе негізгі үш жұмыс кестесі арқылы жүзеге асады:   Біріккен сөздерді танып білу; Жеке сөздердің жиынтығын танып білу; Диктордың дауысына сәйкестендіру.
Біріккен сөздерді танып білуде адам қазақ тіліндегі мәтінді микрофон арқылы оқиды да, ал компьютер өз экранында оқылған сөздерді жазып отырады. Компьютер жазып алған мәтінді сақтайтын арнайы файл енгізілген, ондағы сақталған мәтіндері қайта өңдеуге, электрондық почтамен жіберуге және тағы басқа жұмыстарды істеуге болады. Сөздерді автоматты танып білу жүйесін көптеген жағдайларда іске асыруға болдады. Әсіресе ауызша айтылған сөздерде автоматты аударма жасауға, оқылатын баяндамаларды стенографиялау, жиындарды, монологтар мен ұялы телефонмен сөйлескенде өте пайдалы.
Жеке сөздердің жиынтығын танып білуде көбінесе, әр түрлі құрал-жабдықтарды басқарғанда іске асады. Тұрмыстық техникалар мен роботтарда қолданылады. Ақпараттық қауіпсіздік жүйесі мен бақылауды енгізуде диктор дауысын сәйкестендіру тәртібі қолданылуы мүмкін. Аталмыш тану жүйесі нақты сөз орамы арқылы адамның тұлғасын сәйкестендіреді.
Біздің институттың ғалым мамандарының әзірлеген сөздерді танып білу және синтездеу технологиясы арқылы компьютерді ыңғайлау жүйесімен қолданушы арасында табиғи қазақ тілінде диолог жүргізуге мүмкіндік алады.
Мемлекеттік тіліміздің мәртебесі қазіргі заман талабына сай, заманауи озық технологиялардың ірі жетістіктерімен қатар тығыз қарым-қатынас орнатуға жол ашуымыз керек.  Сонда ғана тілдік  қолданыс аясы кеңіп, елдік беделіміз арта түседі.

 



К списку докладов