Журнал обновлений
Как мы боролись с искусственным интеллектом, омографами и анатомией русского языка.
Уютный редизайн и «Maximum Pain» тесты
Система доведена до уровня профессионального лингвистического инструмента. Мы прогнали алгоритм через самые изощренные тексты, которые только смогли придумать.
- Анатомическая ловушка: Научили систему отличать небо (над головой) от нёба (во рту). Теперь, если нёбо воспалённое или распухшее — алгоритм ставит «ё».
- Все / Всё: Решили вечную дилемму. Теперь система различает местоимение («Все жильцы спали») и наречие («Всё ещё метёт», «Всё вернётся»).
- Редизайн: Сменили холодные синие больничные тона на теплую «ламповую» палитру. Добавили наглядную демо-версию на главную страницу с умной подсветкой замен.
Итог: 98% точности на текстах, где ошибаются даже живые корректоры.
Прагматичный сдвиг (Или как мы убили AI)
Осознали, что стрелять из нейросетевой пушки по воробьям — плохая идея. Тяжелые LLM и BERT-модели иногда галлюцинировали, меняли знаки препинания и неоправданно ёфицировали слова из-за частотного смещения (overfitting).
Что сделали:
- Выкинули гигабайты весов PyTorch.
- Написали молниеносный
ContextAnalyzerна базе строгих правил. - Научили алгоритм понимать разницу между «осёл» (животное с телегой) и «осел» (глагол: осел в снег). Фраза «осёл осел» обрабатывается идеально!
Проект стал в сотни раз быстрее и перестал греть сервер.
Запуск и ML-эйфория
День рождения проекта. Как и все модные стартапы, мы стартовали с интеграции Machine Learning. За основу была взята модель ruBERT-tiny2 в режиме Token Classification.
Оно работало! Но требовало много ресурсов, а Docker-образ весил пугающе много. Это был отличный старт, который показал нам, куда двигаться дальше.