Узган атна Татар телендә текстны тавышка һәм тавышны текстка әйләндерә алган хезмәт эшли башлады. Бу хакта Татарстан фәннәр академиясенең Гамәли семиотика институты хәбәр итте, бу – институт башкарган проект.
Tatar Speech дип аталган бу проект өч өлештән тора:
- Татарча сөйләмне текстка әйләндерү.
- Татарча текстны сөйләмгә әйләндерү.
- Youtube видеоларын реаль вакытта татарчага тәрҗемә итеп яңгырату (бу өлеше Татарстан элемтә министрлыгы белән берлектә башкарыла).
Татарстан дигитал үсеш, мәгълүмати технологияләр һәм элемтә министры Айрат Хәйруллин сүзләренчә, бу инструментларны татар телен өйрәнү өчен дә кулланып булачак. Якын киләчәктә аларны мәктәпләрдә кулланырга телиләр. Бу хезмәтне шулай ук колл-үзәкләрдә кешеләр белән татарча аралашу өчен кулланып булачак диелә.
Хәзерге вакытта "Tatar Speech" бета-тест, ягъни сынау рәвешендә эшли. Азатлык хезмәтне сынап карап, аның функционалын укучыларына тәкъдим итеп карады һәм уңай йә җитешсез якларын барлады.
СӨЙЛӘМНЕ ТЕКСТКА ӘЙЛӘНДЕРҮ
Беренче чиратта, без хезмәтнең сөйләмне никадәр дөрес аңлап, аны текстка ничек әйләндергәне белән кызыксындык. Сайт махсус төймәгә басып, микрофонга сөйләгәнне текстка әйләндерү мөмкинлеген бирә. Алдан яздырылган аудионы йөкләп, аны текстка әйләндерү мөмкинлеге әлегә каралмаган.
Сынау өчен без сайтка берничә кыска текст укыдык. Беренче итеп, Габдулла Тукайның "Туган тел" шигырен яңгыраттык. Хезмәт аны ничек ишетеп язганын сез түбәндәге рәсемнән күрә аласыз:
Күргәнебезчә, ясалма интеллект шигырьне тулысынча отып калды. Бары тик [й] хәрефе генә әлегә [и] хәрефе белән алыштырыла. Шулай ук укыганда паузалар ясалса, хезмәт аларны әлегә танымый булып чыкты: текст тоташ килеш, җөмләләргә бүленмичә һәм тыныш билгеләрсез бирелә.
Биремне бераз катлауландырып, Азатлык Әйдә! Online проектында яңа чыккан "Кара йөзләр" әсәре башын укып карады. Нәтиҗә түбәндәгечә:
Шуннан соң тагын да катлаулырак бирем бирик дип, без Азатлыкта күптән түгел чыккан бер мәкаләдән өзек укыдык:
Үзегез күргәнегезчә, хезмәт сөйләмне текстка шактый оста рәвештә әйләндерә. Югарыда әйтелгән ике әйбердән тыш, башка сораулар тумады. Дөрес, тану дәрәҗәсе сөйләмгә, аның сыйфатына, укучының интонациясе, сүзләрне йотмыйча әйтә алуына да бәйле була ала, болар барысы да нәтиҗәгә тәэсир итәргә мөмкин.
ТЕКСТНЫ СӨЙЛӘМГӘ ӘЙЛӘНДЕРҮ
Хезмәтнең тагын бер башкара алган эше – татарча язылган текстны укып бирү. Уку өчен ике тавыш тәкъдим ителә: Алмаз (ир тавышы) һәм Алсу (хатын-кыз тавышы).
Әлегә функционалда зур булмаган күләмдәге текстны махсус тәрәзәгә язу мөмкинлеге бар. Зуррак күләмдәге текстны хезмәт әлегә кабул итми, шулай ук берәр сайт йә файлны ачтырып, аны укыту мөмкинлеге әлегә каралмаган.
Азатлык бу функционалны да сынап карады. Ясалма интеллект без биргән текстларны шактый яхшы дәрәҗәдә укыды, аерым бер урыннарда гына вак хилафлыклар булса да, урыны белән хәтта уку интонациясе дә чын кешенекенә охшаган.
Без сынап караган берничә өзекне карап узыйк.
Беренче итеп, без Tatar Speech хезмәтенә "Ай былбылым" җыры текстын укып бирергә тәкъдим иттек. Алсу тавышы белән ул аны болай укыды:
Шуннан соң без биремне бераз катлауландырып, Әйдә! Online проекты әзерләгән "Ай өстендә Зөһрә кыз" әсәренең башын укып бирергә сорадык. Бу юлы Алмаз тавышын сайладык:
Тагын да авыррак текст укып карасын дип, без Tatar Speech хезмәтенә Азатлык мәкаләсен тәкъдим итеп карарга булдык. Күзебез тарихчы Юлай Шамиоглы белән яңа чыккан әңгәмәгә, дөресрәге, ул язманың керешенә төште. Тыңлап алыгыз:
Үзегез күрүегезчә, ясалма интеллектка әлегә исемнәр, атамаларны әйтү авыррак бирелә, кайбер татар сүзләре дә кыенлык тудыра (мисал өчен, "тарихчы" сүзендәге басым). Шулай да, сөйләмнең күпчелеге яхшы аңлашыла, субъектив карашка хәтта матур булып та яңгырый.
YOUTUBE ВИДЕОЛАРЫН ТАТАРЧА КАРАУ
"Tatar Speech" хезмәтенең тагын бер функционалы – Youtube видеоларын татарчага тәрҗемә итеп яңгырату. Иң кызыгы, бу функционал урыс телле генә түгел, инглиз телле видеолар белән дә эшли. Ләкин тәрҗемә сыйфаты никадәр яхшы?
Бу хезмәттән файдалану өчен, кулланучыга кечкенә "эш" эшләп алырга кирәк: махсус файлны компьютерга йөкләп, аны браузерга әсбаб (расширение) итеп урнаштыру. Шуннан соң аны браузер көйләүләрендә кабызгач, Youtube-тагы һәр видеода "Тәрҗемә итү" дигән төймә барлыкка килә. Шуңа баскач, якынча бер минуттан видео татарчага тәрҗемә ителә.
Башта без Әйдә! Online проектының бер минутлык кыска видеосын татарча карарга булдык. Кайбер грамматик үзенчәлекләре булу сәбәпле, ясалма интеллект ул урыннарны отып ала алмады, шулай ук тиз сөйләмгә дә өлгерә алмады:
Биремне бераз катлауландырыйк: "Idel.Реалии"да чыккан подкастның бер өлешен татарча тыңлап карыйк. Ясалма интеллект сәяси төшенчәләрне татарча матур итеп әйтә алырмы?
Хезмәт урыс теленнән генә түгел, инглиз теленнән дә тәрҗемә итәргә сәләтле. Ахырда без инглизчәдән татарчага тәрҗемә сыйфатын тикшереп карарга булдык. Моның өчен Стив Джобсның танылган Стэнфорд чыгышын сайладык:
Бу мисаллардан күренгәнчә, иң авыр биремне Tatar Speech уртача дәрәҗәдә башкара. Бер яктан, әйтелгән сүзләрне ул татарчага яхшы тәрҗемә итә, ләкин контекст һәм мәгънәгә әлегә игътибар итеп бетерми.
Ничек кенә булмасын, видеоларны хәзер реаль вакытта татарча карый алу мөмкинлеге татар теле үсешенә чыннан да зур перспективалар ача. Шулай ук, текстны сөйләмгә әйләндерү һәм, киресенчә, сөйләмне текстка әйләндерү хезмәтләре күптән көтелгән һәм төрле тармакта куллану потенциалы булган хезмәтләр булып тора.
***
Татарстан фәннәр академиясенең Гамәли семиотика институты соңгы берничә ел дәвамында заманча нейорочелтәрләр нигезендә сөйләм телен анализлау һәм синтезлау системнарын ясау белән шөгыльләнә. Мондый системнарны эшләүдә төп мәсьәлә — зур күләмдә сөйләм мәгълүмат базасын (датасет) булдыру. Институт белгечләре мәгълүматына күрә, хәзерге вакытта 500 сәгатьтән артык күләмдә беренче татар сөйләм мәгълүмат базасы әзерләнгән, анда төрле яшь, җенес, диалекттагы меңнән артык уникаль спикерның төрле шартларда яздырылган тавышлары тупланган. Шушы уникаль датасет ярдәмендә Tatar Speech хезмәтенең β-версиясе тәкъдим ителгән.
Алга таба шушы хезмәтләрне үстерү һәм камилләштерү планлаштырыла. Сөйләм интерфейсы күп кенә башка проектларда нигез булыр дип көтелә: әйтик, тавышлы тәрҗеман (Татсофт тәрҗемә хезмәтен тавышлы итү), татар һәм рус телләрендә чыгышларны синхрон тәрҗемә итү, татар телендә әйтелеш тренажеры, татар телендә заманча әдәби портал (татар телендә аудиокитаплар ясау мөмкинлеге), тавышны башка телләргә клонлау системы, телевидение тапшыруларын субтитрлау, татар телендә аудио хәбәрләрне һәм аудио файлларны текстка әйләндерү кебек хезмәтләр.
🛑 Русиядә Азатлык сайты томаланды, нишләргә? Безнең кулланма.
🌐 Безнең Telegram каналына да кушылырга онытмагыз!
Форум