Москва ТЕЛЕКОМ

Большинство ответов LLM недостоверны: как исправить ситуацию

Большинство ответов LLM недостоверны: как исправить ситуацию

Источник: ComNews

В ноябре 2024 г. сотрудники Open AI оценили точность ответов, генерируемых большими языковыми моделями (LLM). Оказалось, что даже самые передовые из них выдают недостоверные ответы в 60% случаев. О том, почему процент недостоверных ответов настолько высок, как это может навредить людям и что происходит с LLM в России, рассказал генеральный директор компании Smart Engines Владимир Арлазаров.

Исследование OpenAI показало, что в 60% случаев LLM выдает недостоверные ответы. Почему это происходит?

Прежде всего стоит сказать, что LLM модель - это отличное изобретение. Создатели первых больших языковых моделей поступили как настоящие ученые. Они честно сообщили об открытии, рассказали о его достоинствах и недостатках. Более того, они разработали специальные датасеты, позволяющие количественно оценить процент достоверности модели. Но изобретение – это еще не система. С момента появления изобретения до возникновения системы могут пройти столетия.

Хайп вокруг LLM подхватили и раздули уже не ученые. До общественности дошла всего одна мысль: мы получили нечто универсальное, способное решить все проблемы. Но, конечно, это не так. Действительно, мы имеем хороший пример взаимодействия человека с машиной. Машина содержит огромное количество фактов и выдает их человеку. Но проверить – достоверны они или нет – машина не умеет.

По сути в огромную модель загрузили весь интернет. И почему-то коммерсанты решили, что эта модель начнет выдавать правильные ответы и что она откуда-то должна знать абсолютно не очевидные вещи. Те знания, которые человек приобретает в течение жизни на практике, машина получить не может.

Для примера обратимся к понятию "цвет". Любая большая языковая модель даст пользователю десятки определений этого слова от развернутых и научных до бытовых. Но искусственный интеллект при этом совершенно не понимает, что такое цвет в действительности, и ученые тратили долгие годы, чтобы научить алгоритм отличать зеленый от салатового. В то же время ребенок с рождения справляется с этой задачей. Словом, все, что интуитивно понятно человеку, для нынешних нейросетей – совершенно нетривиальная задача. Отсюда и неверные ответы.

Какие вы видите новые подходы к разработке больших языковых моделей, которые обеспечили бы более высокую точность и надежность?

Наверное, нужно браться не за создание универсального искусственного интеллекта на основе больших языковых моделей, а научиться хорошо решать узконаправленные задачи. И, проверив технологии на простых примерах, переходить уже к более сложным и амбициозным задачам. Например, распознаванием букв ученые и разработчики занимаются уже около 50 лет, и эта задача по сравнению с созданием глобального искусственного интеллекта кажется ничтожной. Но ей до сих пор уделяют внимание, совершают открытия, предлагают свежие идеи. И примеров таких конкретных задач можно привести миллионы.

Сколько времени, на ваш взгляд, нужно для того, чтобы научиться решать хотя бы подобные задачи?

Есть уже огромный прогресс в распознавании символов. Если раньше нужны были специальные шрифты, определенные условия для камер, то теперь смартфон считывает тексты документов в любых условиях. И все равно, несмотря на полвека развития, даже в столь небольшой области есть куда расти - например, повышать энергоэффективность искусственного интеллекта. Недавно наши ученые предложили рабочую модель на основе 4 и 6-битных нейросетей на замену 8-битным. Технология ускоряет распознавание на 40% за счет эффективного использования вычислительных ресурсов устройства.

Вопрос энергоэффективности при разговоре о нейросетях и LLM моделях стоит задавать почаще. Из недавнего отчета международного энергетического агентства следует, что к 2026 г. потребление электричества датацентрами, необходимыми в том числе и для обработки запросов языковыми моделями, может вырасти до 1050 тераватт-часов. Это сопоставимо с энергопотреблением Германии. Для понимания скорости, с которой растут аппетиты индустрии, стоит добавить, что в 2022 г. потребление датацентров измерялось 460 тераватт-часами. Пока не будет решен вопрос энергоэффективности нейросетей, ни о каких прорывах в области LLM можно и не мечтать. А отрабатывать грамотное использование природных ресурсов необходимо, повторюсь, на прикладных задачах.

Какие сферы деятельности вы можете назвать, в которых недостоверные результаты LLM могут привести к необратимым и опасным последствиям?

В первую очередь, это, разумеется, медицина. Уже давно существует искусственный интеллект от компании IBM - Watson. Его внедрили в медицинские системы США и Южной Кореи. Врачи прислушивались к мнению машины при назначении лечения. Через несколько лет специалисты подсчитали, сколько человек предположительно убил искусственный интеллект, и ужаснулись. Алгоритм не раз предлагал совершенно не подходящее лечение людям, больным онкологией. При этом неважно, сколько человек вылечила разработка IBM. Суть в том, что врачам стали навязывать мнение модели как правильное, даже если специалисты в этом решении сомневались. Вдобавок встает вопрос ответственности. Если вас лечит врач, то она лежит полностью на нем. Ответственность давит на врача, заставляя его искать правильные решения. На машину и на ее разработчиков никто не давит. Получается, что искусственный интеллект может убить человека, и за это никто не будет наказан. То же самое можно сказать и про беспилотные автомобили. Кто понесет ответственность после несчастного случая? Вопрос остается открытым.

Кроме того, вспоминается недавний случай в Англии. Семья купила книгу о грибах, а после прочтения люди отправились в лес, приготовили ужин и отравились. Выяснилось, что книгу написала одна из LLM, и никто это даже не проверил. Хорошо, что все остались живы. Но ведь когда люди читали книгу, они были уверены, что информация в ней достоверна, и кто-то за нее отвечает. Оказалось, что это не так. К сожалению, таких примеров очень много. При этом машина нам не лжет - у нее просто нет таких намерений. Искусственный интеллект лишь выдает ответ, который с синтаксической точки зрения максимально близок к тому вопросу, который был задан. Иногда ответ оказывается верным, но зачастую - нет.

Как обстоит ситуация с LLM в России? Какие достойные проекты можете выделить?

В России большими языковыми моделями много занимаются и академики, и дельцы. Но проблема в том, что пока фундаментальных достижений в России нет. Все пользуются теми же подходами, моделями, которые используют и наши зарубежные визави. Есть отдельные улучшения, точечные достижения, но принципиально нового ничего создано не было. Складывается ощущение, что нам разметили дорожки, по которым мы бесконечно бегаем, радостно соревнуемся, показываем успехи - и все это на американском поле. При этом в России были и есть технологии, которые затмевают достижения американцев. Например, распознавание лиц. У нас было несколько компаний, - VisionLabs, NtechLab - которые на мировом уровне занимали лидирующие места в отрасли. Но соревновались они на зарубежном рынке, и с началом санкций их с этой площадки попросили уйти, наложив серьезные экспортные ограничения.

Какая будет ситуация с большими языковыми моделями в России через 10-15 лет?

Есть два варианта развития событий: позитивный и негативный. Если мы все-таки возьмемся за ум, то получим серьезный эффект от внедрения искусственного интеллекта, что вызовет экономический рост. Жить будем лучше и дольше, потому что в медицине искусственный интеллект – это тот инструмент, который при правильном применении способен перевернуть мир. Просто нужно не делать слишком много громких заявлений, а медленно, но верно решать задачи. Тогда мы можем занять важное место в мире в сфере искусственного интеллекта. И, если наша страна будет правильно распоряжаться ограниченными ресурсами, можно получить очень хорошие дивиденды. В противном случае мы пойдем вместе со всеми по пути, который нам определили оппоненты, – будем состязаться на поле больших языковых моделей в роли вечных догоняющих. Думаю, в ближайшие год-два настанет поворотный момент, который определит, что будет дальше.

Заинтересованы ли инвесторы в стартапах в сфере LLM?

В наше время почти все основатели технологических стартапов заявляют об использовании LLM в том или ином виде, поскольку это привлекает инвестиции. Действительно ли предприниматель работает с большими языковыми моделями или нет – большой вопрос.

Идет вечная борьба между стартапером и инвестором за деньги. Если инвестору нравится идея предприятия, и он готов вложиться, встает вопрос – а сколько это стоит. Стартапер может запросить определенную сумму, не понимая, сколько нужно на самом деле. Инвестор тоже, не разбираясь в технологиях, не может грамотно дать оценку. Поэтому нужно приглашать ученых, которые отлично в этом разбираются, чтобы поднять все материалы, поэкспериментировать, протестировать продукт. А ведь и это стоит немалых денег. Ученых, которые обладают экспертизой, на всю страну десятки человек, и все они заняты. Получается, возникают риски, на которые пойдет не каждый инвестор. Но многие рискуют - в 2024 г. венчурные инвестиции в искусственный интеллект достигли $89 млрд. При этом прибыль инвесторов оказалась на $60 млрд меньше.

Существует риск повторения сценария "кризиса доткомов". В конце XX века стоило компании сказать волшебное слово "Интернет" - и инвесторы готовы были осыпать ее деньгами, акции могли за месяц торгов вырасти почти на 1000%. Но подобный рост не может длиться вечно, и вскоре "компании нового тысячелетия" стали банкротами. Бездумные вливания денег в однодневки, создатели которых обещали изменить мир, развернув бизнес во всемирной сети, вылились в одно из серьезнейших испытаний в истории мировой экономики. Не хотелось бы, чтобы история повторилась.

И все-таки как вы оцениваете уровень современных моделей LLM?

Приведу один пример. Мой дедушка Владимир Львович Арлазаров – академик, член-корреспондент РАН, и он в восторге от ChatGPT. Я скорее скептик, поскольку вижу, что LLM показывает сомнительные результаты в ответ на многие запросы. С другой стороны, ChatGPT великолепно пишет различные "бумажки". Даешь нейросети задание сочинить какую-нибудь бессмысленную служебную записку, и она справляется с этим.

Мы с дедом стали думать, почему наши мнения о ChatGPT расходятся и поняли, что для ученого эта модель действительно кажется гениальным открытием, потому что 40% достоверности для человека науки - крайне высокий показатель. Когда исследователь получает от нейросети информацию с таким процентом достоверности - это алмаз. Ученые привыкли работать с куда более низкими результатами, поэтому для них настоящее событие – получить почти половину достоверной информации сразу же. Фактчекинг ведь не вызывает раздражения, это привычная научная работа.