Исландия утрау-дәүләте технологияләр һәм туризм тиз үскән илләрнең берсе. Шул ук вакытта, халык саны нибары 370 мең чамасы булган илдә, Европа берлеге һәм АКШ белән тирән интеграция һәм глобализация сәбәпле, исланд теленең югалу куркынычы туды. Белгечләр бүген исланд теле дигитальләшү юлына басмаса, берничә буыннан соң ул юкка чыгарга мөмкин дип борчыла.
Исландия хакимияте бу проблемны бик яхшы аңлый, илнең мәдәни мирасын саклауны максат итеп куя. Моның өчен хөкүмәттә махсус департамент бар. Аның бурычларының берсе - яңа барлыкка килгән күренешләр һәм технологияләр өчен исланд сүзләрен уйлап табу, чит телләрдән алынмалардан баш тарту.
Мисал өчен, исланд телендә компьютер сүзен толва дип атыйлар ("санлы күрәзәче"). Татар телендә дә санак сүзен кертү омтылышы булды, чикле күләмдә булса да, ул бүген дә кулланыла.
OpenAI белән хезмәттәшлек
Ясалма интеллект чоры башлану белән, милли телләргә югалу куркынычы янаганын аңлаган активистлар яңа технологияләр ярдәмендә телләрне саклап буламы дигән сорауга җавап эзли башлады. Бу сорауны Азатлык та үзенең язмаларында даими күтәреп тора.
Исландия дә бу эштән читтә калмаган. Ил президенты Гудни Йоханнессон тәкъдиме белән Исландия хөкүмәте OpenAI ширкәте белән партнер хезмәттәшлек турында килешү төзегән. Бу эштә хөкүмәткә хосусый бизнес ярдәм иткән диелә. Төп максат: OpenAI-ның GPT исемле танылган нейрочелтәрен исланд телен саклау өчен куллану. Бу эштә алар беренчеләрдән булыр дип саный.
БУ ТЕМАГА: Интернетта сорауларга татарча җавап бирә торган чат боты барлыкка килде— Милли телдә мәгълүмат базасын туплау һәм локаль програмнар булдыру гына җитми. Без телебезне кешеләр көн саен кулланган програмнар һәм кушымталарга өстәргә тиеш. Ахыр чиктә, ясалма интеллект тел, мәдәният һәм тарихны саклауга гына түгел, безнең икътисади үсешкә дә ярдәм итәчәгенә ышанабыз, — дип саный Йоханна Гудмундсдоттир, ул Almannarómur тел технологияләре үзәге мөдире булып эшли.
GPT нейрочелтәре милли телләрне ничек саклый ала соң? Беренче чиратта, аны бу телдә камил сөйләшергә өйрәтү кирәк, ди исланд активистлары. OpenAI модельләре интернеттагы зур күләмдәге текстларга нигезләнеп өйрәнә. Инглиз, урыс һәм башка зур телләр очрагында ул тиз өйрәнә һәм аның өчен "чимал" да күп. Ә менә сөйләшүчеләр һәм язучылар саны азрак булган телләр өчен бу кыенрак.
Һәркем өчен ачык булган GPT-3.5 мисалын караганда, ул исланд телендә бик күп хаталар ясый. Шунысы кызык, татар теле очрагында да бу ачык күренә: ул ясалма төрки телдә яза.
Ләкин киләсе модель булган GPT-4 инде исланд телендә дә, татар телендә дә шактый яхшы яза, аралаша. Татар теле очрагын без аерым язмада карарбыз. Исланд теленә килгәндә, тел активистлары аның исландча яхшы язуына карамастан, әле барыбер күп хаталар булуын таный.
Волонтерлар төркеме
Тел технологияләре белән шөгыльләнүче Miðeind ehf ширкәте нейрочелтәрләрне исланд теленә яхшырак "өйрәтү" өчен волонтерлар төркемен җыйды, анда 40лап кеше катнаша. Алар GPT-4-не исланд теле грамматикасына өйрәтә һәм исланд мәдәнияте турында аңлатып яза.
Бу процесс RLHF дип атала – "кешедән кире элемтә алу нигезендә өйрәтү". Волонтерлар GPT-4-кә сорау бирә, нейрочелтәр исә 4 төрле вариант җавап бирә. Шуннан соң сынауда катнашучылар иң яхшы җавапны сайлый һәм аңа төзәтмәләр кертә. Бу процесс нейрочелтәрнең киләчәктә тагын да яхшырак һәм дөресрәк җаваплар бирүе өчен кирәк.
RLHF барлыкка килү алдыннан модельне өйрәтү шактый катлаулы процесс булган. Шул ук Miðeind ehf такымы GPT-3-не өйрәтергә тырышкан, алар 300 меңләп мисал язган, ләкин бу нәтиҗә бирмәде, ди ширкәт башлыгы Вильхьялмур Торстейнссон.