На брифинге в СЦК генеральный директор "Центра поддержки цифрового правительства" Рустем Бигари ответил на вопросы журналистов о том, как научить искусственный интеллект казахскому языку, передает inbusiness.kz.
Он уточнил, что сегодня ChatGPT может генерировать тексты на казахском языке.
"Но для того, чтобы он полноценно говорил и правильно отвечал, надо порядка 13 миллиардов токенов. На сегодня сам ChatGPT, который Open AI там, примерно 1,5 миллиарда токенов всего. То есть в 10 раз меньше. Почему? Потому что корпус открытых данных, которые есть в мире, всего насчитывает столько данных. Поэтому большая задача сегодня стоит в Казахстане разработать отечественную библиотеку данных с произведениями, с учетом менталитета казахстанского и так далее. Именно казахскую модель, которая к концу года должна быть разработана и представлена обществу для того, чтобы мы с вами уже дальше помогали ее развивать", - ответил Бигари.
Для того, чтобы это запустить, нужны вычислительные мощности, пояснил он.
При этом его спросили, будет поддержка казахского языка в GPT со стороны министерства.
"Конечно, министерством создано два консорциума, плюс стартапы и проекты, которые сегодня формируются. Будет давать возможность, именно поддерживать бизнес", - почеркнул он.
При этом на вопрос о том, какой бюджет будет для этого выделен, Бигари уточнил, что бюджет сегодня только формируется.
"Цифру мы не можем сейчас сказать. Потому что создать языковую модель состоит из нескольких этапов. Не только данные собрать, "скормить", но нужна еще потом большая работа лингвистов, которые правильно должны разметить. Ну и большое участие граждан планируется, чтобы они участвовали в развитии разметки языка", - пояснил он.
Глава центра привел в пример Южную Корею, где платят миллиарды гражданам для того, чтобы они помогали развивать собственную языковую модель. Такой же подход, по его словам, будет и в Казахстане.
Читайте по теме:
Какие компании в Казахстане работают на основе искусственного интеллекта