Москва ТЕЛЕКОМ

От интеллектуальных алгоритмов — к управлению качеством данных

От интеллектуальных алгоритмов — к управлению качеством данных

Источник: ComNews

Успех внедрения ML в бизнесе зависит не от сложности алгоритмов, а от качества и стратегического подхода к данным. Прежде чем запускать дорогостоящие ML-проекты, компания должна привести в порядок "сырьевые активы" из данных. Без этого любой ML-проект обречен стать бесполезной тратой денег и времени, рассказывает Дарья Кагарлицкая, технический директор компании Navicon.

Ренессанс ИИ

Удивительно, но машинное обучение и искусственный интеллект — не изобретение последних лет, а концепция, которая десятилетиями переживала периоды спада и возрождения. Хотя пятидесятые годы XX века воспринимаются сегодня как эпоха, когда промышленность, наука и технология только начинали возвращаться к системной работе после войны, именно в 1952 году была создана "ИИ-программа" для игры в шашки, которая умела улучшать собственную стратегию на основе сыгранных партий.

По современным меркам это примитив, но сама идея о том, что машина способна учиться на своем опыте, оказалась революционной. Первое успешное применение формальных математических основ, заложенных ранее, показало, насколько перспективным может быть этот путь.

Впрочем, дальше история не развивалась по прямой траектории. Машинное обучение и ИИ дважды переживали периоды застоя, когда интерес к ним угасал из-за ограничений в вычислениях и нехватки данных — случилась так называемая "зима искусственного интеллекта". И только в последние 5 лет технологии, которые десятилетиями оставались в тени, достигли пика кривой хайпа и стали основой огромного пласта ИТ-продуктов и сервисов.

Первая причина такой стремительно возросшей популярности связана с вычислительными мощностями. За последние годы ограничение по железу стало скорее финансовым вопросом, чем техническим, выстрелили GPU-вычисления для ИИ, облачные модели выделения ресурсов под ML-задачи. Если компания готова инвестировать в инфраструктуру или арендовать мощности, то технических барьеров к запуску ML-моделей для большинства задач почти не осталось.

Второй, куда более значимый фактор лежит в сфере данных. Объем информации, который генерируют бизнес-процессы, цифровые каналы, сервисы и пользователи, увеличился на порядки. Доступность данных, их накопление и возможность возвращаться к ним ретроспективно изменили саму логику ML/ИИ-инженерии. От вопроса "Какой алгоритм придумать" мы перешли к вопросу "Какие данные использовать для его наиболее эффективной работы". Данные перестали быть просто входным сырьем — и стали средой, в которой существуют и эволюционируют современные интеллектуальные системы.

Роль данных в успехе ML и ИИ-проектов

Причем важно подчеркнуть — технология работает там, где данные не просто существуют в вакууме. Должно быть организовано их системное хранение и обработка, в рамках парадигмы Data Governance. Если данные собираются хаотично, без стратегии и правил, даже их объем не позволит получить реальную ценность из работы ИИ. Если данные содержат ошибки, дубли и отсутствующие значения, любая модель будет лишь воспроизводить эти искажения. Если же их недостаточно, то алгоритм не сможет уловить закономерности. А если они не отражают тех процессов, которые вы хотите оптимизировать, — результат окажется бесполезным.

Именно поэтому подготовка к ML-проектам начинается задолго до выбора технологий и подрядчиков. Бизнесу приходится принимать стратегическое решение и начинать трактовать данные не как побочный продукт своей деятельности, а как стратегический актив. Отношение к данным как к активу, требующему классификации, очистки и осмысленной структуры, позволяет увидеть их реальную ценность.

Только после этого становится понятно, какие задачи могут быть решены с помощью ML, какие модели действительно применимы к вашему процессу, на каком массиве стоит обучаться и какой уровень подготовки нужен, чтобы получить не иллюзию цифровой трансформации, а измеримый эффект.

Замкнутый цикл

Корреляция между зрелостью Data Governance и успешностью ML-проектов подтверждается практически всеми отраслевыми исследованиями. Это редкий случай, когда консенсус выстраивается не вокруг конкретных показателей, а вокруг самой логики развития технологий: ML не может функционировать без качественных данных, а качественные данные не могут появиться без системной модели управления ими.

Более 80% участников глобальных опросов называют Data Governance критическим условием развития AI и ML. Почти все организации — около 98% — фиксируют негативное влияние низкого качества данных на точность моделей, масштабирование решений и итоговый бизнес-эффект.

В отраслях с высокой зависимостью от точности данных, таких как финансы, внедрение Data Governance и ML идет параллельно. Результатом становится существенное (на 52%) улучшение качества исходных данных, ускорение процедур комплаенса и повышение стабильности модели.

Параллельно формируются новые архитектурные подходы, в которых Data Governance и ML взаимно усиливают друг друга. Концепции data mesh и data fabric используют элементы ML для автоматизации governance-процессов, а сами ML-модели строятся на высококачественных, полностью управляемых данных. Это формирует замкнутый цикл: без зрелого Data Governance невозможно создать устойчивую ML-экосистему, но без ML невозможно поддерживать governance-процессы в масштабе, который требует современный бизнес.

Как сделать так, чтобы данные реально работали

Прежде чем переходить к внедрению ML, важно понять уровень зрелости бизнеса в вопросе данных: достаточно ли данных для обучения модели, отражают ли они реальность и можно ли доверять этим записям. Нужно привести собственное информационное поле в порядок, очистить и структурировать данные, разобрать и отделить ценное от бесполезного, избавившись от последней категории. Так получится сформировать основу, которая станет фундаментом для полноценной стратегии Data Governance — а впоследствии и машинного обучения.

После того как появляется уверенность в качестве данных, можно переходить к этапу выстраивания непосредственно Data Governance: приходит время определить реальную ценность данных и выстроить классификацию. На этом этапе компания впервые осознает, какие факты и метрики действительно важны для ее процессов, чего в информационном массиве не хватает, и какие задачи можно переложить на алгоритмы. Причем сценарии должны быть фокусированными — именно это даст шанс получить первые быстрые результаты без распыления ресурсов.

Наконец, последний этап — запуск пилотного проекта и проверка "в полях" — на реальной ИИ-модели. Этот этап позволяет понять, как она реагирует на данные, какие искажения возникают и где требуется калибровка. Модель дорабатывается, упрощается, усложняется и перенастраивается до тех пор, пока ее результат не начинает приносить компании измеримую пользу. Эта польза должна выражаться либо в прямых финансовых показателях, либо во времени, которое экономят сотрудники.

***

На рынке наметился революционный переход от внедрения интеллектуальных алгоритмов к поиску таких сценариев, где они могут приносить максимальную пользу. И это невозможно без грамотного управления данными. Компании, которые уже сейчас делают ставку на качественную работу с данными и выбирают реалистичные сценарии применения ML, выиграют в следующем технологическом цикле.