Недавно я наткнулся на очень забавный феномен, который буквально взорвал китайскоязычный интернет. Оказывается, ChatGPT имеет совершенно странные лингвистические привычки, когда общается на мандарине. И это не просто опечатки — это целый набор причудливых речевых паттернов, которые заставляют пользователей рваться с волос.
Что происходит с ChatGPT на китайском?
Представьте себе ситуацию: вы обращаетесь к нейросети на китайском языке, а она начинает отвечать таким образом, что складывается впечатление — её переводил какой-то очень странный алгоритм или человек, изучавший язык по старым учебникам 80-х годов. Пользователи жалуются, что модель использует архаичные выражения, странно построенные фразы и речевые обороты, которые звучат максимально неестественно.
Главная проблема в том, что англоязычная версия ChatGPT явно была оптимизирована лучше. На английском диалоги получаются естественными и живыми, а вот на китайском — словно разговариваешь с робом из 90-х фантастического фильма.
Почему это происходит?
Техническая сторона вопроса довольно интересна. Дело в том, что большинство обучающих данных для больших языковых моделей исторически были на английском. Китайский язык получил гораздо меньше внимания при разработке, и это сказалось на качестве. Плюс, сама архитектура модели, оптимизированная для английской грамматики и синтаксиса, не совсем корректно применяется к структуре китайского языка.
Что дальше?
Компания OpenAI, конечно, осведомлена о проблеме. Но исправление требует серьёзной работы с моделью, дополнительного обучения на качественных китайских текстах и постоянного рефайнинга.
Здесь есть более глубокий урок для всей индустрии ИИ: когда вы развиваете мультиязычную систему, нельзя просто перенести оптимизацию с одного языка на другой. Каждый язык имеет свои особенности, контексты, культурные нюансы. Игнорирование этого приводит именно к таким забавным, но раздражающим результатам.
Надеюсь, в следующих обновлениях мы увидим значительное улучшение качества общения на азиатских языках. Это будет справедливо по отношению к миллионам пользователей по всему миру.