Альфа Банк подключил DeepSeek
АО "Альфа-Банк" начало применять "думающую" модель DeepSeek R-1. Согласно сообщению банка, искусственный интеллект от одноименной китайской компании превосходит аналогичные разработки от OpenAI (ChatGPT) и Google (Gemini).
"DeepSeek R-1 - это новейшая "рассуждающая" большая языковая модель от ИИ-лаборатории DeepSeek, расположенной в Китае. У нее полностью открытый исходный код, несколько версий под разные задачи, что позволяет адаптировать и доработать ее под необходимые цели. В Альфа‑Банке уже давно применяют разнообразные открытые генеративные модели ИИ, так что интеграция новинки в инфраструктуру банка будет органичной", - сказано в сообщении.
Представитель пресс-службы Альфа-Банка не ответил на вопросы корреспондента ComNews.
Что такое DeepSeek R-1
Представитель пресс-службы MTS AI рассказал, что компания DeepSeek разрабатывает семейство больших языковых и мультимодальных моделей, способных создавать и анализировать контент, такой как тексты, изображения, компьютерный код. DeepSeek R-1 - открытая ИИ-модель. Это значит, что компании и разработчики могут бесплатно дообучить и адаптировать модель под определенные нужды и задачи.
"Открытые модели в 2025 г. сравнились по качеству с проприетарными. Это бросает вызов бизнес-модели OpenAI, а значит – стоимости компании, в которую кроме потенциального роста бизнеса заложены несбыточные обещания фаундеров. С разницей в несколько дней вышли модели DeepSeek и Alibaba (Qwen2.5-Max). Мы рассмотрим обе модели. Они очень сильные и сопоставимы по качеству с новейшими наработками OpenAI, но в отличие от нее, открытые. Качество больших языковых моделей приближается к верхней границе, прорывов в ближайшее время не будет, зато все больше и больше компаний будут догонять по качеству OpenAI", - отметил он.
Аналитик Freedom Finance Group Владимир Чернов отметил, что при создании DeepSeek R-1 разработчики использовали микросхемы, специально разработанные Nvidia для китайского рынка, которые не подпадали под торговые ограничения США на экспорт. По его словам, это поставило под сомнение необходимость использования самых передовых разработок и мощных чипов от американских компаний для создания новейших инструментов и сервисов на основе ИИ.
"DeepSeek стал громом среди ясного неба, потому что никто не ожидал такого перформанса и такой внезапно появившейся производительности вычислительной мощности. Однако, Китай тратит много ресурсов на искусственный интеллект. Не смотря на санкции, они большие молодцы, потому что разработка собственного искусственного интеллекта скоро будет иметь стратегическое значение (как собственная армия, криптография и так далее). Мы видим тренд, что компании закрывают данные от обучения нейросетями системами искусственного интеллекта. Скоро и целые страны, скорее всего, будут стремиться закрывать накопленную и имеющуюся в открытом доступе информацию от обучения зарубежными системами искусственного интеллекта", - сказал управляющий директор ООО "Гибрид" (Hybrid Россия), вице-президент по программатик-технологиям в мире компании Hybrid Дмитрий Федосеев.
Младший научный сотрудник группы "Прикладное NLP" АНО "Институт Искусственного Интеллекта" (Институт AIRI) Никита Сушко назвал DeepSeek R-1 "хорошей моделью". По его словам, эффект новости о ней, как о "громе среди ясного неба, - иллюзия, так как в профессиональном сообществе ИИ китайская компания известна. Он отметил, что еще в начале 2024 г. была опубликована научная статья с кратким изложением основных принципов работы моделей, которые потом получили развитие при разработке R-1.
"Модель от DeepSeek привлекла много внимания, потому что компания предоставила доступ к ней вместе с техническим отчетом и весами для обучения. В отличие, например, от о1, разработчики которой не публикуют полные цепочки рассуждений, R-1 отличается большей прозрачностью и при этом имеет интересную модель мышления. Немаловажен и тот факт, что DeepSeek разработала R-1 в условиях ограниченных вычислительных мощностей и ресурсов: согласно отчету, обучение проводилось на "урезанных" графических картах. Кстати, инференс такой "размышляющей" модели все равно будет недешевым - прежде чем модель сгенерирует ответ, она будет генерировать много токенов", - заметил Никита Сушко.
С ним согласился заместитель генерального директора по стратегическим проектам ООО "Обит" Михаил Телегин. Он назвал бесплатность, открытость и качество ответов, превосходящее аналоги главными плюсами языковой модели. Он отметил, что китайские разработчики придумали способ оптимизации технологии обучения при заявленной небольшой стоимости, однако способ публично не раскрыли.
По словам директора продуктового направления "КомьюнитиТех" Игоря Горячева, китайский продукт обрабатывает в четыре раза больше токенов, чем западные аналоги. Как следствие, это позволяет модели "генерить" более длинные тексты. Однако он заметил, что китайская компания так и не разгласила информацию об объемах данных, на которых обучалась языковая модель.
"Существуют так называемые бенчмарки, позволяющие измерить эффективность выполнения различных задач большими языковыми моделями. В некоторых из этих тестов DeepSeek действительно показывает лучшие результаты по сравнению с ChatGPT. Однако важно учитывать, что ChatGPT — это не только языковая модель, но и разветвленная экосистема сервисов, что дает ей ряд преимуществ. По утверждениям разработчиков, одно из заявленных достоинств DeepSeek заключается в том, что модель требует меньше энергии для работы и может функционировать на менее мощных чипах, что является значительным достижением по сравнению с аналогами", - рассказал Игорь Горячев.
"Мы протестировали модель, сравнили с российскими и западными. DeepSeek показывает хорошие результаты. Мы в контуре инфраструктуры компании работаем с несколькими моделями, обучаем, тестируем их и применяем как для внутренних задач, так и для клиентским проектов. Важно отметить, что для бизнеса ИИ - это не вопрос гонки за лучшей версией ИИ, а вопрос коммерчески рационального и эффективного ее применения", - рассказал Михаил Телегин.
Применение глубинного поиска
"Сама модель DeepSeek огромная, для работы с ней потребуется более 8 графических процессоров (GPU). Поэтому в проектах и продуктах нашей компании мы, скорее, будем использовать выложенные разработчиком дистилляты (более компактные версии) моделей, требующие меньших затрат на инфраструктуру. На данный момент такие модели мы уже тестируем. Полагаю, что в скором времени выйдет несколько сжатых версий DeepSeek, для развертывания которых уже не нужен будет кластер GPU", - сказал эксперт в области ИИ ООО "АксТим" (Axenix) Александр Стрельников.
По мнению Игоря Горячева, принципиальные концептуальные различия между ChatGPT и DeepSeek незначительны. По его словам, одним из ключевых факторов при выборе сервиса, основанного на большой языковой модели, является стабильность его работы. Иными словами, чем больше сервисов, тем выше вероятность его бесперебойного функционирования.
"Мы изучаем возможности DeepSeek, Gemini и ChatGPT. Каждая из них хороша в каких-то аспектах. Важно понимать, что именно в нашей работе многие методы, применяемые в системах искусственного интеллекта, развернуты локально на наших серверах, потому что не всегда безопасно загружать какие-то данные на зарубежные сервера, так как мы несем за них ответственность. Поэтому, если есть возможность развернуть какие-то модели у себя, в том числе Open source, который мы дорабатываем самостоятельно, то мы это делаем. Ввиду этого, а также ввиду стремления к технологической независимости, полноценное использование зарубежных нейросетей не желательно, а иногда не представляется возможным", - рассказал Дмитрий Федосеев.
Пресс-службы Т-Банка, Сбербанка, ВТБ, МТС-Банка не ответили на вопросы корреспондента ComNews.
"Банк отслеживает активное развитие сферы больших языковых моделей (она очень динамична, мы видим это в успехах китайских и российских компаний). При этом для полноценного внедрения больших языковых моделей (LLM) в процессы банка есть нюанс в части хранения данных в облаке, поэтому здесь возможным решением становится запуск LLM во внутреннем контуре банка. Использование LLM поддержит стратегические инициативы ОТП Банка по внедрению агентов на основе искусственного интеллекта в максимально возможное количество процессов - от сферы клиентского обслуживания до бэк-офисных процессов", - рассказал корреспонденту ComNews представитель пресс-службы АО "ОТП Банк".
Как американские компании потеряли $1 трлн
"DeepSeek - китайский стартап, основанный около полутора лет назад тремя инженерами из Чжэцзянского университета. Первоначально компания разрабатывала ИИ-модели для биржевой торговли, но затем переключилась на создание больших языковых моделей. 29 ноября 2023 г. DeepSeek представила первую LLM с 67 млрд параметров, которая по производительности приблизилась к GPT-4. Однако модель столкнулась с проблемами вычислительной эффективности и масштабируемости", - рассказал Владимир Чернов.
Он отметил, что в начале 2025 г. китайская компания выпустила новую версию модели под названием R-1 Zero. Разработчики обучили ее за два месяца, используя при этом графические процессоры Nvidia H800 при затратах более $5,5 млн.
"27 января 2025 г. после запуска R-1 Zero акции крупных американских технологических компаний, связанных с искусственным интеллектом, резко упали. Nvidia потеряла почти 18% стоимости, что привело к снижению ее рыночной капитализации более чем на $600 млрд. Общие потери рынка составили около $1 трлн", - отметил Владимир Чернов.
По его словам, успех китайской разработки продемонстрировал возможность достижения значимых результатов в области ИИ с относительно небольшими ресурсами. Он назвал успех DeepSeek "Спутниковым моментом" в глобальной гонке искусственных интеллектов, который привел к значительным переменам на мировом рынке технологий.
"Китай лидирует в разработке искусственного интеллекта. Обладая вычислительными мощностями и интеллектуальными ресурсами, специалисты китайских компаний будут продолжать поддерживать лидерство в этой области. По оценкам экспертов на дальнейшее развитие ИИ-инфраструктуры Китай планирует выделить около 1 трлн юаней", - заключила директор по развитию "Дельта BI" (ООО "УК Навикон") Татьяна Хачапуридзе.