Российские учёные разработали метод проверки ИИ-систем с поиском: рейтинг и защита от галлюцинаций
Российские исследователи разработали универсальный подход, который позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском. Разработка будет представлена публике на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, сообщила ТАСС пресс-служба MWS AI (входит в МТС Web Services). Разбираемся в деталях и рассказываем, как Selsup помогает бизнесу использовать современные технологии для автоматизации.
Проблема: как проверить ИИ-помощников в реальных условиях
«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жёстком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надёжных ИИ-систем в любой отрасли», — пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.
Многие крупные корпорации в настоящее время активно используют большие языковые модели для создания помощников, способных извлекать уже известные сведения из корпоративных баз знаний и информационных систем, а также искать новую информацию по заданной тематике в глобальной сети при подготовке ответов на запросы пользователей. Для обеспечения корректной работы этих ИИ-помощников крайне важно, чтобы они совершали как можно меньше ошибок и максимально редко вырабатывали галлюцинации — ситуации, когда модель выдумывает факты, выдавая их за достоверные.
Почему существующие тесты не работают
Чаще всего для решения этой проблемы используются стандартизированные тесты, которые либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, что снижает объективность тестирования. В результате компания может получить «идеальный» результат на тесте, но совершенно неработоспособную систему в реальных условиях.
Российское решение: автоматическая генерация актуальных тестов
Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых ещё нет в архивах, и на их базе создаёт многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.
Это принципиально новый подход: вместо того чтобы тестировать модели на старых данных, которые могли попасть в обучение, система использует актуальную информацию, которой модель точно не видела. Это позволяет получить объективную оценку способности модели работать с новой информацией, искать её и корректно интерпретировать.
Рейтинг ИИ-помощников: объективная оценка для бизнеса
Опираясь на этот подход, исследователи проверили качество работы нескольких ИИ-помощников, основанных на популярных открытых языковых моделях, и создали первый публичный рейтинг для подобных систем. В перспективе, разработка исследователей и созданный ими рейтинг помогут корпорациям быстро оценивать точность работы создаваемых ими ИИ-ассистентов и сравнивать их эффективность с уже существующими решениями такого рода, подытожили ученые.
Это важный шаг для рынка корпоративного ИИ: теперь компании смогут объективно сравнивать разные модели и выбирать лучшие для своих задач, а разработчики получат инструмент для улучшения своих продуктов.
Что это значит для бизнеса
Для предпринимателей и компаний появление такого метода тестирования открывает новые возможности:
- Объективная оценка ИИ-решений. При выборе поставщика ИИ-помощника можно будет опираться на независимый рейтинг, а не на маркетинговые обещания.
- Снижение рисков внедрения. Корпорации смогут заранее оценить, насколько система будет эффективна в их специфических условиях.
- Повышение качества клиентского сервиса. ИИ-помощники, прошедшие такие тесты, будут реже ошибаться и реже галлюцинировать.
- Возможность адаптации под любые языки. Методология универсальна и может использоваться для любых языков и предметных областей.
Выводы
Российские исследователи сделали важный шаг к созданию надёжных и предсказуемых ИИ-систем. Их универсальный подход к тестированию русскоязычных ИИ-помощников с поиском позволяет объективно оценивать качество работы моделей, используя актуальные данные и автоматически генерируя тесты. Первый публичный рейтинг таких систем поможет корпорациям выбирать лучшие решения и снижать риски внедрения.
Для бизнеса это означает, что в ближайшем будущем появятся более надёжные и точные ИИ-помощники, которые можно будет интегрировать в корпоративные процессы. А пока технологии развиваются, Selsup помогает автоматизировать уже существующие бизнес-процессы, делая их прозрачными и эффективными.
Ваш надежный помощник в бизнесе
SelSup — профессиональная ERP-система для онлайн торговли. Если у вас есть своя ERP, мы легко синхронизируемся с ней. 6 модулей для роста ECOM-бизнеса. Помогает сократить время на операционные процессы и сконцентрироваться на стратегии развития компании.
Подходит для владельцев бизнеса и руководителей (для контроля и принятия решений), менеджеров маркетплейсов, менеджеров склада, может использоваться для планирования и работы с маркировкой (для сокращения рутины и ускорения процессов).
Программа состоит из 6 модулей на базе нейросетей:
- AI-финдир. Проводит анализ слабых точек и показывает зоны роста бизнеса, обеспечивает его стабильное развитие и разрабатывает план роста компании. Он содержит более 16 отчетов, среди которых как привычные (юнит-экономика, ABC-анализ, план-факт продаж), так и новые (рука на пульсе). Информацию в отчетах можно посмотреть так, как вам нужно — в рамках организации или товара. Это сквозная аналитика всего бизнеса в режиме онлайн. За пару кликов вы получите отчет и рекомендации что делать, чтобы расти. Информация будет понятной без финансового образования.
- PIM-система для маркетплейсов. Интеллектуальное создание карточек стало возможно. Программа помогает управлять карточками товаров на разных маркетплейсах через одно окно: создавать, редактировать, переносить. Она рекомендует категории, значения параметров. Можно создавать карточки даже из 1С, а также в Честном знаке (автоматом получаем “честный штрихкод”). Она сокращает время на 90%. 3000 товаров создаются за 1 день. Это особенно удобно для компаний с большим ассортиментом — фешн, электроника и др.
- Умный склад. Порядок на складе и безошибочная сборка — это реально. Синхронизация остатков, автоматический расчет комплектов, работа с дублями, задания для кладовщиков — все это в едином окне. Модуль работает через интерфейс, ТСД или даже телефон. Автоматически печатается этикетка заказа при сканировании ШК товара. Ускорьте сборку заказов по FBS, DBS. Умный склад перепроверит работу сборщиков и не даст им ошибиться. Интеграция со службами доставки и подключение вашего интернет магазина станет решающим для масштабирования вашего бизнеса.
- AI-планировщик. Планируйте поставки и закупки с помощью искусственного интеллекта. Прогнозируем ваши продажи с учетом более 100 показателей, на основе этого рекомендуем количество к поставке по кластерам. Подключите модуль и добивайтесь успеха в онлайн бизнесе. Поможем исключить кассовые разрывы и аутофстоки.
- Маркировка товаров. Самый широкий функционал для работы с маркировкой Честный знак. Поможем соблюдать правила маркировки от А до Я: создание карточек, получение GTIN, получение и печать кодов маркировки (этикетки гибко настраиваются — на 1 этикетке маркировка и ШК товара), УПД ДОП, ввод и вывод из оборота, а также матчинг статуса кода маркировки и статуса заказа на маркетплейсе — так вы всех будете соблюдать законодательство и защититесь от штрафов, сэкономите время и нервы.
- CRM-система. Она позволяет отслеживать коммуникацию с клиентами всех маркетплейсов в одной программе, отвечать на вопросы и отзывы и оказывать клиентский сервис на высочайшем уровне.
Готовое решение обладает теми преимуществами, которых невозможно достичь при использовании Excel или самописных аналитических программ:
- Многофункциональность. SelSup имеет большое количество модулей. Вы можете подключить только необходимые функции, не переплачивая за то, чем не будете пользоваться.
- Работа в одном окне. Вся работа в приложении ведется через одно окно. Вам не нужно переключаться между личными кабинетами маркетплейсов, вручную формировать заказы для поставщиков, пользоваться несколькими программами для получения внутренней аналитики.
- Безопасность. SelSup — официальный партнер маркетплейсов и системы «Честный знак». Программа получает быстрые обновления при изменении условий работы селлеров с площадками, что гарантирует отсутствие скрытых расходов для продавцов. Гибкая настройка прав доступа.
- Интеграция. Сервис интегрируется не только с 1С, но и с другими программами. Он позволяет автоматически формировать накладные в СДЭК и Почте России. Возможна кастомная доработка.
- Техническая поддержка. Мы предоставляем пользователям поддержку почти 24/7. Опытные технические специалисты помогут настроить программу, научат ей пользоваться и будут на связи даже в выходные.
