Москва ТЕЛЕКОМ

От хаоса к ценности: ИИ в предпроекте по управлению справочными данными

От хаоса к ценности: ИИ в предпроекте по управлению справочными данными

Источник: ComNews

Искусственный интеллект охватывает все больше бизнес-процессов, не оставляя в стороне такое направление, как работа с данными. О том, как применение ИИ на этапе предпроекта по управлению справочными данными позволяет оценить качество информации и получить быстрое подтверждение ценности проекта для бизнеса, рассказывает Полина Сорокина, менеджер Data&AI Strategy компании Axenix.

Критический дата-хаос

Все хотят внедрить ИИ, чтобы стать быстрее и эффективнее. Но мало кто задумывается, что нейросеть, обученная на плохих данных, — это просто очень быстрый генератор ошибок.

В основе бизнеса любой современной компании находится "дата-скелет": таблицы с кодами, классификаторами и наименованиями. Это структура, на которую нанизываются все процессы, отчетность и аналитика. Если она деформирована, бизнес начинает страдать от множества мелких, но болезненных "симптомов". Из-за необходимости ручных маппингов, исправлений и выяснений корректных значений замедляются закупки и поставки, растут издержки и теряется скорость вывода новых продуктов.

В эпоху ИИ проблема становится еще острее. Практическая ценность ИИ-инструментов напрямую зависит от качества исходных данных: только на основе чистой, точной и актуальной информации модель сможет показать хороший результат.

Если основа — мастер-данные — искажена, то "умная" система лишь масштабирует и ускоряет распространение ошибок. В результате бизнес получает от ИИ не преимущество, а цифровой хаос.

Предпроект как трамплин к управлению данными

Надежность и чистоту данных может обеспечить внедрение системы управления мастер-данными (Master Data Management – MDM). Однако немалая стоимость ее внедрения, сопровождения и развития и заставляет компании подходить к этому с осторожностью. Бизнесу важно понимать — окупятся ли эти затраты? Разобраться в этом помогает предпроект, позволяющий оценить, окажется ли полезной MDM-система в конкретной ситуации, сложившейся в компании, и каким образом.

Предпроект предполагает честный разговор. Сколько людей и подразделений участвуют в создании и обновлении мастер-данных? Кто отвечает за их качество? Какие решения опираются на эти данные? И главное — кто несет ответственность, если качество подводит? Нужно увидеть ландшафт целиком: какие справочники существуют, кто их использует, где они пересекаются, как и по каким каналам данные распространяются между системами. Без этого невозможно даже приблизительно оценить масштаб будущих изменений.

Затем наступает самая важная стадия — разговор с теми, кто каждый день работает с данными и страдает от их низкого качества. В ходе таких интервью выявляются конкретные сбои: где и почему возникли задержки, какие решения были приняты на основе ошибочных данных, сколько времени и ресурсов сотрудников ушло на исправление.

Далее команда оценивает качество информации. Это не просто проверка на дубликаты или пустые поля. В предпроекте важно измерить качество по атрибутам, бизнес-правилам, соответствию регламентам. На этом этапе определяются владельцы данных, формируются критерии проверки и устанавливаются базовые метрики, мониторинг которых в дальнейшем может быть автоматизирован.

Параллельно можно протестировать использование ИИ: запустить быстрые пилоты по дедупликации, классификации или валидации. Эти мини-проекты показывают, насколько модель способна сократить трудозатраты, и дают осязаемую экономику — сравнивается, сколько времени тратит человек на обработку записи без помощи ИИ и сколько с ним.

Результаты предпроекта оформляются в виде бизнес-кейса. Он должен быть предельно конкретным: какие справочники будут охвачены, какова ожидаемая экономия, как изменятся процессы, сколько потребуется инвестиций. Здесь же определяется архитектурное решение: нужна ли полноценная MDM-система с обратной рассылкой данных в источники или достаточно централизации на уровне хранилища или ERP-системы; требуется ли ИИ-ассистент; как будет выглядеть целевая архитектура.

Наконец формируется дорожная карта — поэтапное движение от пилота к масштабированию. Помимо прочего, она должна отвечать на вопрос — как эффективно встроить ИИ именно в процессы по работе с мастер-данными и превратить цифровые инициативы в реальную бизнес-ценность.

ИИ как бустер качества

После утверждения дорожной карты начинается практическая работа с данными. И здесь ИИ становится важным инструментом структурирования и очистки информации, ускоряя переход от хаоса к системности.

Самая очевидная и востребованная область применения ИИ — удаление повторяющихся фрагментов информации (дедупликация) и нормализация. Практика показывает, что даже у крупных организаций в справочниках десятки вариантов написания одного и того же наименования, различающихся сокращениями, пунктуацией, форматом, иногда даже языком.

Для человека это рутинная и изматывающая работа: сверить тысячи записей, определить, какие из них относятся к одному объекту, и унифицировать их. ИИ справляется с этим за считанные минуты, предлагая сгруппированные совпадения и рекомендации по объединению. Человек остается в роли валидатора — утверждает или отклоняет предложения алгоритма, но не тратит время на ручной поиск.

Другая область применения ИИ — автоматическая классификация. Системы на базе языковых моделей способны "прочитать" наименование, описание, технические характеристики и соотнести их с нужным классификатором: ОКПД, ГОСТ или внутренним корпоративным стандартом. Особенно это полезно в отраслях, где один и тот же продукт может называться по-разному: "болт М6", "винт шестимиллиметровый" и "элемент крепежный" наконец-то объединяются под одной категорией. Такая унификация — основа для консолидации закупок, а значит, для прямой экономии на эффекте масштаба.

ИИ помогает и в настройке правил качества. Раньше их приходилось формулировать вручную: аналитики и методологи писали сложные условия в виде скриптов и выражений. Теперь же можно "обучить" модель на собственных регламентах и внешних нормативных документах, чтобы она сама предлагала логические зависимости: если заполнено поле "сертификат соответствия", то обязательно должен быть указан "орган сертификации"; если указан "тип контрагента = физлицо", то недопустимо наличие ИНН юрлица и т.д.

Ключ к успеху в таких проектах — грамотная постановка задач и контекста. Языковые модели нужно "учить понимать" внутреннюю структуру данных компании: как называются поля, какие значения считаются допустимыми, какие — нет. Это вопрос промпт-инжиниринга и метаданных: чем точнее вы объясните модели бизнес-логику, тем чище и полезнее будет результат.

Точки риска и перспективы

Главный риск сегодня — галлюцинации, то есть генерация правдоподобных, но фактически неверных или вымышленных ответов, которые могут возникать даже при работе с полными данными из-за особенностей обучения и функционирования нейросетей.

Не менее важна безопасность. Справочные данные часто содержат чувствительную информацию — внутренние коды, структуры каталогов, сведения о контрагентах и ценообразовании. Поэтому внедрение ИИ должно происходить в закрытом контуре, без возможности утечки при дообучении модели на корпоративных данных.

Это накладывает ограничения на выбор технологий, но зато открывает пространство для адаптации: кастомные решения, оптимизированные под конкретные отрасли и задачи, при этом работающие автономно.

Кроме того, модели необходимо дообучать на новых данных — с учётом изменений в законодательстве, внутренних регламентов и отраслевых стандартов. Сейчас появляются инициативы от вендоров по созданию типовых классификаторов и отраслевых структур справочников. В перспективе это позволит ускорить внедрение и снизить трудозатраты на поддержку решений для мастер-данных.

***

Важно понимать, что внедрение наведение порядка в данных, даже с помощью ИИ, — "игра в долгую": лицензии, интеграции, обучение персонала требуют инвестиций и времени. Окупаемость приходит не сразу, но она неизбежна, когда данные становятся основой управляемости.

Новые решения, интеграции и отчеты строятся быстрее, без бесконечных сверок и ручных правок. Таким образом, путь к зрелой модели управления данными на основе ИИ может начинаться с малого — с наведения порядка в отдельных процессах, где потери наиболее ощутимы, например, в закупках или логистике.

Постепенно формируется культура, укрепляется доверие к информации, а значит, в дальнейшем масштабирование решений MDM будет проходить легче, а "чистые" справочники помогут эффективнее внедрять разнообразных ИИ-помощников по всей цепочке создания ценности.