DeepSeek выпустил "самую мощную" ИИ-модель с открытым кодом
Москва. 24 апреля. INTERFAX.RU - Китайский стартап DeepSeek выпустил превью-версии новой флагманской ИИ-модели V4, сообщила компания в соцсети Х.
DeepSeek назвал ее самой мощной моделью с открытым исходным кодом (open source), отметив высокие результаты V4 в программировании и значительный прогресс в областях рассуждений (reasoning) и выполнения агентских задач.
Модель имеет две линейки - V4 Flash и V4 Pro. В них реализованы архитектурные и оптимизационные улучшения, сообщила компания на платформе Hugging Face.
Бюджетная Flash имеет 284 млрд параметров, включая 13 млрд активных, продвинутая Pro - 1,6 трлн параметров (49 млрд активных).
Версия Pro сопоставима по результатам с лучшими мировыми моделями с закрытым кодом, заявляет DeepSeek. При этом стоимость ее эксплуатации (инференса) значительно ниже, чем у аналогов.
V4 основана на так называемой архитектуре гибридного внимания (Hybrid Attention Architecture), улучшающей способность запоминать запросы в рамках длинных диалогов. Она также поддерживает контекст длиной до 1 млн токенов (единиц текстовой или другой информации, 100 токенов эквиваленты примерно 75 английским словам - ИФ), что позволяет обрабатывать длинные документы или целые базы кода в один прием.
DeepSeek в WeChat указывает на чрезвычайно ограниченное наличие вычислительных мощностей для обслуживания V4 Pro, но прогнозирует значительное снижение цен на модель после запуска компьютерных кластеров на чипах Huawei Ascend 950 во втором полугодии.
После этого сообщения акции основного чипмейкера Huawei - Semiconductor Manufacturing International Corp. (SMIC) - подорожали на 9,4% в Гонконге. Другой чипмейкер - Hua Hong Semiconductor - нарастил капитализацию более чем на 13%. Бумаги конкурирующей с DeepSeek компании Knowledge Atlas Technology (бывшая Zhipu) подешевели на 8%.
Сейчас DeepSeek обсуждает привлечение капитала от Tencent и Alibaba в рамках своего первого инвестраунда, передает Bloomberg.
DeepSeek получила широкую известность в начале прошлого года после выхода модели R1. Будучи сопоставимой с разработками OpenAI, эта модель требовала гораздо меньше затрат на обучение, что вызвало сильные изменения котировок на мировых рынках акций, обвалив стоимость Nvidia за одну сессию почти на $600 млрд.

