Российские учёные разработали метод проверки ИИ-систем с поиском: рейтинг и защита от галлюцинаций

Дата публикации: 24.03.2026
3
Время на прочтение: 4 минуты
Дата обновления: 24.03.2026

Российские исследователи разработали универсальный подход, который позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском. Разработка будет представлена публике на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, сообщила ТАСС пресс-служба MWS AI (входит в МТС Web Services). Разбираемся в деталях и рассказываем, как Selsup помогает бизнесу использовать современные технологии для автоматизации.


Проблема: как проверить ИИ-помощников в реальных условиях

«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жёстком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надёжных ИИ-систем в любой отрасли», — пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.

Многие крупные корпорации в настоящее время активно используют большие языковые модели для создания помощников, способных извлекать уже известные сведения из корпоративных баз знаний и информационных систем, а также искать новую информацию по заданной тематике в глобальной сети при подготовке ответов на запросы пользователей. Для обеспечения корректной работы этих ИИ-помощников крайне важно, чтобы они совершали как можно меньше ошибок и максимально редко вырабатывали галлюцинации — ситуации, когда модель выдумывает факты, выдавая их за достоверные.

Почему существующие тесты не работают

Чаще всего для решения этой проблемы используются стандартизированные тесты, которые либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, что снижает объективность тестирования. В результате компания может получить «идеальный» результат на тесте, но совершенно неработоспособную систему в реальных условиях.

Российское решение: автоматическая генерация актуальных тестов

Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых ещё нет в архивах, и на их базе создаёт многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.

Это принципиально новый подход: вместо того чтобы тестировать модели на старых данных, которые могли попасть в обучение, система использует актуальную информацию, которой модель точно не видела. Это позволяет получить объективную оценку способности модели работать с новой информацией, искать её и корректно интерпретировать.

Рейтинг ИИ-помощников: объективная оценка для бизнеса

Опираясь на этот подход, исследователи проверили качество работы нескольких ИИ-помощников, основанных на популярных открытых языковых моделях, и создали первый публичный рейтинг для подобных систем. В перспективе, разработка исследователей и созданный ими рейтинг помогут корпорациям быстро оценивать точность работы создаваемых ими ИИ-ассистентов и сравнивать их эффективность с уже существующими решениями такого рода, подытожили ученые.

Это важный шаг для рынка корпоративного ИИ: теперь компании смогут объективно сравнивать разные модели и выбирать лучшие для своих задач, а разработчики получат инструмент для улучшения своих продуктов.

Что это значит для бизнеса

Для предпринимателей и компаний появление такого метода тестирования открывает новые возможности:

  • Объективная оценка ИИ-решений. При выборе поставщика ИИ-помощника можно будет опираться на независимый рейтинг, а не на маркетинговые обещания.
  • Снижение рисков внедрения. Корпорации смогут заранее оценить, насколько система будет эффективна в их специфических условиях.
  • Повышение качества клиентского сервиса. ИИ-помощники, прошедшие такие тесты, будут реже ошибаться и реже галлюцинировать.
  • Возможность адаптации под любые языки. Методология универсальна и может использоваться для любых языков и предметных областей.

Выводы

Российские исследователи сделали важный шаг к созданию надёжных и предсказуемых ИИ-систем. Их универсальный подход к тестированию русскоязычных ИИ-помощников с поиском позволяет объективно оценивать качество работы моделей, используя актуальные данные и автоматически генерируя тесты. Первый публичный рейтинг таких систем поможет корпорациям выбирать лучшие решения и снижать риски внедрения.

Для бизнеса это означает, что в ближайшем будущем появятся более надёжные и точные ИИ-помощники, которые можно будет интегрировать в корпоративные процессы. А пока технологии развиваются, Selsup помогает автоматизировать уже существующие бизнес-процессы, делая их прозрачными и эффективными.

Вверх

Ваш надежный помощник в бизнесе

SelSup — профессиональная ERP-система для онлайн торговли. Если у вас есть своя ERP, мы легко синхронизируемся с ней. 6 модулей для роста ECOM-бизнеса. Помогает сократить время на операционные процессы и сконцентрироваться на стратегии развития компании.

Подходит для владельцев бизнеса и руководителей (для контроля и принятия решений), менеджеров маркетплейсов, менеджеров склада, может использоваться для планирования и работы с маркировкой (для сокращения рутины и ускорения процессов).

Программа состоит из 6 модулей на базе нейросетей:

  • AI-финдир. Проводит анализ слабых точек и показывает зоны роста бизнеса, обеспечивает его стабильное развитие и разрабатывает план роста компании. Он содержит более 16 отчетов, среди которых как привычные (юнит-экономика, ABC-анализ, план-факт продаж), так и новые (рука на пульсе). Информацию в отчетах можно посмотреть так, как вам нужно — в рамках организации или товара. Это сквозная аналитика всего бизнеса в режиме онлайн. За пару кликов вы получите отчет и рекомендации что делать, чтобы расти. Информация будет понятной без финансового образования.
  • PIM-система для маркетплейсов. Интеллектуальное создание карточек стало возможно. Программа помогает управлять карточками товаров на разных маркетплейсах через одно окно: создавать, редактировать, переносить. Она рекомендует категории, значения параметров. Можно создавать карточки даже из 1С, а также в Честном знаке (автоматом получаем “честный штрихкод”).  Она сокращает время на 90%. 3000 товаров создаются за 1 день. Это особенно удобно для компаний с большим ассортиментом — фешн, электроника и др.
  • Умный склад. Порядок на складе и безошибочная сборка — это реально. Синхронизация остатков, автоматический расчет комплектов, работа с дублями, задания для кладовщиков — все это в едином окне. Модуль работает через интерфейс, ТСД или даже телефон. Автоматически печатается этикетка заказа при сканировании ШК товара. Ускорьте сборку заказов по FBS, DBS. Умный склад перепроверит работу сборщиков и не даст им ошибиться. Интеграция со службами доставки и подключение вашего интернет магазина станет решающим для масштабирования вашего бизнеса.
  • AI-планировщик. Планируйте поставки и закупки с помощью искусственного интеллекта. Прогнозируем ваши продажи с учетом более 100 показателей, на основе этого рекомендуем количество к поставке по кластерам. Подключите модуль и добивайтесь успеха в онлайн бизнесе. Поможем исключить кассовые разрывы и аутофстоки.
  • Маркировка товаров. Самый широкий функционал для работы с маркировкой Честный знак. Поможем соблюдать правила маркировки от А до Я: создание карточек, получение GTIN, получение и печать кодов маркировки (этикетки гибко настраиваются — на 1 этикетке маркировка и ШК товара), УПД ДОП, ввод и вывод из оборота, а также матчинг статуса кода маркировки и статуса заказа на маркетплейсе — так вы всех будете соблюдать законодательство и защититесь от штрафов, сэкономите время и нервы.
  • CRM-система. Она позволяет отслеживать коммуникацию с клиентами всех маркетплейсов в одной программе, отвечать на вопросы и отзывы и оказывать клиентский сервис на высочайшем уровне.

Готовое решение обладает теми преимуществами, которых невозможно достичь при использовании Excel или самописных аналитических программ:

  1. Многофункциональность. SelSup имеет большое количество модулей. Вы можете подключить только необходимые функции, не переплачивая за то, чем не будете пользоваться.
  2. Работа в одном окне. Вся работа в приложении ведется через одно окно. Вам не нужно переключаться между личными кабинетами маркетплейсов, вручную формировать заказы для поставщиков, пользоваться несколькими программами для получения внутренней аналитики.
  3. Безопасность. SelSup — официальный партнер маркетплейсов и системы «Честный знак». Программа получает быстрые обновления при изменении условий работы селлеров с площадками, что гарантирует отсутствие скрытых расходов для продавцов. Гибкая настройка прав доступа.
  4. Интеграция. Сервис интегрируется не только с 1С, но и с другими программами. Он позволяет автоматически формировать накладные в СДЭК и Почте России. Возможна кастомная доработка.
  5. Техническая поддержка. Мы предоставляем пользователям поддержку почти 24/7. Опытные технические специалисты помогут настроить программу, научат ей пользоваться и будут на связи даже в выходные.
Похожие записи
WB Taxi открывается для всех жителей Ташкента: 50% кешбэка «арбузами» и прозрачные условия для водителей
Узнать подробнее
Маркировка автозапчастей стартует с 1 декабря 2026 года: фильтры, свечи, тормозные диски и шины под контролем
Узнать подробнее
Налоги на маркетплейсах 2026: как не попасть под штрафы ФНС из-за комиссий и бонусных баллов
Узнать подробнее
Налоговая реформа 2026: новые правила УСН, порог НДС упал до 20 млн рублей и что делать бизнесу
Узнать подробнее
Сбер представил GigaChat Ultra: ИИ-помощник с долгосрочной памятью и двукратным ускорением
Узнать подробнее
Wildberries превращается в платформу для поиска сотрудников: WB Job идёт на смену традиционным джоб-бордам
Узнать подробнее
Wildberries запускает пластиковые подарочные сертификаты: теперь можно вручить лично
Узнать подробнее
Маркетплейсы могут начать отвечать за некачественные товары иностранных селлеров: новый механизм до 2028 года
Узнать подробнее
Как выбрать прибыльную нишу на Ozon в 2026 году: полный гид для селлера
Узнать подробнее
Оборона бизнеса 2026: схемы мошенничества, которые могут стоить вам компании
Узнать подробнее