ИИ База знаний для бизнеса

Обзор решений на рынке: RAG, облачные платформы и KAG-система нового поколения. Возможности, стоимость, архитектура.

Подготовлено: Completo Март 2026 · Аналитический отчёт

Содержание

  1. Проблема: как компании теряют знания
  2. Что такое ИИ база знаний и как она помогает
  3. RAG — основной подход на рынке
  4. Готовые решения на рынке РФ
  5. Ограничения RAG-подхода
  6. KAG — следующее поколение: граф знаний вместо текстового поиска
  7. Детальное сравнение RAG vs KAG
  8. Типы контента: от PDF до видеозаписей совещаний
  9. Примеры работы на реальных сценариях
  10. Применение для производителя: конкретные сценарии
  11. Открытый vs закрытый контур: где хранятся данные
  12. Закрытый контур: что нужно из оборудования
  13. Стоимость внедрения и поддержки
  14. Итоговая рекомендация

1. Проблема: как компании теряют знания

В любой компании со временем накапливается огромный объём информации: протоколы совещаний, презентации, отчёты, переписки, записи звонков, видеовстречи. Эта информация — ценный актив, но на практике она лежит мёртвым грузом.

Типичные ситуации

«Где это было?» — Менеджер тратит 30-40 минут, чтобы найти конкретную договорённость с клиентом. Она точно была — то ли в записи звонка, то ли в протоколе встречи, то ли в письме. В итоге либо находит через час, либо переспрашивает клиента (что выглядит непрофессионально).
«Мы же это обсуждали» — На совещании принимают решение, которое противоречит решению месячной давности. Никто не помнит, что изменилось. Результат — путаница, пересогласования, потеря времени.
«Кто это согласовал?» — В маркетинговом тексте указаны неточные цифры. Текст ушёл в публикацию, потому что никто не сверил данные с первоисточником. Отследить, откуда взялась ошибка, невозможно.
«Уволился — унёс знания» — Ключевой сотрудник уходит, и вместе с ним уходят контекст, договорённости, нюансы по десяткам клиентов. Новый человек начинает с нуля.

Масштаб проблемы

По исследованиям McKinsey, сотрудники тратят до 20% рабочего времени на поиск информации внутри компании. Для команды из 20 человек это эквивалент 4 полных ставок, которые тратятся на то, чтобы найти то, что уже известно.

При этом значительная часть знаний существует только в неструктурированном виде: видеозаписи совещаний, PDF-документы, сканы, голосовые сообщения. Обычный поиск по файлам здесь бессилен.

Решение: ИИ база знаний — система, которая автоматически обрабатывает все документы компании (включая видео и сложные PDF), извлекает из них факты, структурирует их и позволяет мгновенно находить нужную информацию на естественном языке.

2. Что такое ИИ база знаний и как она помогает

Представьте, что у вас есть идеальный ассистент, который прочитал все документы компании, посмотрел все записи совещаний, помнит каждую цифру и каждую договорённость — и может за секунды найти любую информацию и ответить на вопрос со ссылкой на источник.

Это и есть ИИ база знаний. Технически она работает так:

  1. Загрузка — вы загружаете документы в систему (текст, PDF, видео, аудио — любой формат)
  2. Обработка — ИИ автоматически «читает» документы, извлекает ключевые факты и связи
  3. Хранение — факты сохраняются в структурированном виде с привязкой к источникам
  4. Использование — вы задаёте вопрос обычным языком и получаете ответ с указанием, откуда он взят

Какие задачи решает

Задача Без ИИ базы знаний С ИИ базой знаний
Найти договорённость с клиентом 30-60 мин: перебор файлов, писем, записей 30 секунд: вопрос → ответ с цитатой из совещания
Проверить текст на ошибки Ручная сверка с первоисточниками (если их найдут) Автоматическая проверка: система подсвечивает расхождения с фактами
Протокол совещания 1-2 часа ручной работы менеджера Автоматическое извлечение решений, задач, KPI из видеозаписи
Onboarding нового сотрудника Недели вхождения, «бегать спрашивать» Задаёт вопросы системе — получает ответы с контекстом
Заметить противоречие Обычно никто не замечает до конфликта Система автоматически сигнализирует при загрузке нового документа

На рынке существует два принципиально разных подхода к построению таких систем. Разберём каждый.

3. RAG: как это работает

RAG (Retrieval-Augmented Generation) — наиболее распространённый подход на рынке. Если объяснять простыми словами: система разрезает все документы на небольшие кусочки, запоминает смысл каждого кусочка в виде числового кода, а при вопросе — находит наиболее похожие кусочки и показывает их ИИ-модели, чтобы та сформулировала ответ.

Схематично:

Документы Нарезка на чанки Векторные эмбеддинги Векторная БД

Запрос пользователя Поиск похожих чанков LLM + контекст Ответ

Как работает пошагово:

  1. Загрузка документов — текстовые файлы, PDF, таблицы загружаются в систему
  2. Разбивка на фрагменты — документы режутся на кусочки (чанки) по 200-500 слов
  3. Векторизация — каждый чанк превращается в числовой вектор (эмбеддинг) через LLM
  4. Хранение — векторы сохраняются в специальную базу данных (Pinecone, Qdrant, Weaviate и др.)
  5. Поиск — при запросе система находит наиболее похожие чанки по косинусному расстоянию
  6. Генерация — найденные чанки подаются как контекст в LLM, которая формирует ответ
Плюсы RAG: простота внедрения, много готовых решений, быстрый старт (от 1-2 недель), хорошо работает для FAQ и документации.

4. Готовые решения на рынке РФ

Решение Тип LLM Стоимость Особенности
Yandex Cloud ML
(YandexGPT + Search Index)
Облако YandexGPT 4 от 30 000 ₽/мес
(по токенам + хранение)
Интеграция с Yandex Cloud, русский язык из коробки. Ограниченный RAG: только текст, нет графа знаний.
GigaChat API
(Сбер)
Облако GigaChat Pro от 20 000 ₽/мес
(пакеты токенов)
API для RAG. Хороший русский. Нет встроенной векторной базы — нужно дособирать самим.
MTS AI / Cotype Облако Собственные LLM от 50 000 ₽/мес Корпоративный RAG с интеграцией в экосистему МТС. Фокус на телеком.
LangChain + Qdrant
(open-source)
Open Source Любая Бесплатно
(+ инфраструктура)
Конструктор. Требует разработки, но максимально гибкий. Только RAG.
LlamaIndex
(open-source)
Open Source Любая Бесплатно
(+ инфраструктура)
Мощный фреймворк для RAG. Есть Knowledge Graph Index, но примитивный.
Dify / Flowise Open Source Любая Бесплатно
(self-hosted)
No-code платформы для RAG. Быстрый старт, но ограниченная кастомизация.
KAG-система
(разработка Completo)
KAG Любая
(Qwen, Gemini, GPT)
Индивидуально Граф знаний + вектора + адаптивные агенты. Единственное KAG-решение на рынке РФ.
Важно: Все перечисленные решения (кроме KAG от Completo) используют классический RAG-подход: «нарезал → векторизовал → нашёл похожее → ответил». Это работает для простых сценариев, но имеет фундаментальные ограничения.

5. Ограничения RAG-подхода

RAG не понимает смысл — он находит похожие тексты. Это ключевое ограничение, из которого вытекают все остальные.
Проблема Описание Последствия
Нет структуры знаний Документы хранятся как «мешок слов». Система не знает, что «ООО Ромашка» — это клиент, а «Иванов» — менеджер. Невозможно задать вопрос «Все решения по клиенту X за март» — только полнотекстовый поиск.
Нет обнаружения противоречий Если в документе от января написано «бюджет 1 млн», а в мартовском «бюджет 500 тыс» — RAG не заметит. Ответы могут содержать устаревшую или противоречивую информацию.
Потеря контекста при нарезке Таблица на 3 страницы будет разрезана на 6 чанков. Каждый чанк потеряет связь с заголовками столбцов. Ответы по сложным PDF/таблицам часто неточные.
Нет работы с аудио/видео Готовые RAG-решения не умеют транскрибировать, определять спикеров, извлекать события из совещаний. Огромный пласт корпоративных знаний (записи встреч) остаётся за бортом.
Нет верификации контента RAG может найти факты, но не может проверить текст на соответствие базе знаний. Невозможно автоматически проверять маркетинговые материалы, статьи, отчёты.
Однонаправленный поиск Только косинусное расстояние между вектором запроса и вектором чанка. Если вопрос сформулирован не так, как написано в документе — ответ не найдётся.
Нет адаптивности Фиксированный пайплайн: загрузил → нарезал → ответил. Нет quality gates. Если качество входных данных низкое (шумная транскрипция) — качество ответов тоже.

6. KAG: база знаний следующего поколения

KAG (Knowledge Augmented Generation) — принципиально другой подход. Если RAG — это «умный поиск по тексту», то KAG — это «умный сотрудник, который прочитал все документы и понял, кто есть кто и что с чем связано».

Вместо того чтобы просто резать документы на кусочки, KAG извлекает из текста сущности (людей, компании, продукты, решения, цифры) и строит между ними связи — получается граф знаний. Это как интерактивная карта всей информации компании, где видно: кто принял решение, когда, на какой встрече, и как это повлияло на проект.

Документы / Видео / PDF Классификация чанков Извлечение сущностей Граф знаний

Запрос Вектора + Граф + Полнотекст LLM + факты Ответ с источниками

Ключевые возможности KAG-системы Completo

Граф знаний

  • Типы сущностей настраиваются под предметную область клиента (персоны, организации, проекты, KPI, решения, продукты и др.)
  • Автоматическое извлечение связей между сущностями
  • Многошаговый обход графа (найти все решения, связанные с клиентом X через менеджера Y)
  • Визуализация графа знаний в интерфейсе

Тройной поиск

  • Векторный поиск — семантическая близость (как RAG)
  • Граф-запросы — по связям между сущностями
  • Полнотекстовый — точное совпадение терминов
  • Фьюжн результатов — покрывает случаи, где один метод не срабатывает

Обнаружение противоречий

  • Автоматическое сравнение новых фактов с существующими
  • Уровни уверенности: определённое / возможное
  • Цикл обратной связи: менеджер подтверждает/отклоняет
  • Коррекции индексируются в граф с приоритетом

Верификация контента

  • Проверка текста на соответствие базе знаний
  • Светофорная оценка: зелёный / жёлтый / красный
  • Подсветка проблемных мест с указанием источников
  • Карточка клиента как контекст для проверки

Видео-интеллект

  • Автоматическая транскрипция (Whisper)
  • Определение спикеров (диаризация + распознавание лиц)
  • Извлечение событий: решения, задачи, KPI, проблемы, обратная связь
  • Таймлайн совещания с цитатами из первоисточника

Адаптивные агенты

  • Агент определения спикеров — повторяет с расширенным контекстом при низкой уверенности
  • Агент классификации алертов — двухступенчатая валидация
  • Агент классификации чанков — переклассификация при low confidence
  • Оркестратор — quality gates, пропуск ненадёжных данных

7. Детальное сравнение RAG vs KAG

Возможность RAG KAG (Completo)
Форматы документов Текст, простые PDF Текст, PDF (vision), видео, аудио, изображения, веб-страницы
Понимание структуры Плоские чанки Настраиваемая типизация сущностей + автоматические связи
Метод поиска Только вектора Вектора + граф + полнотекст (тройной)
Обнаружение противоречий Нет Автоматическое, с уровнями уверенности
Верификация контента Нет Светофорная система + инлайн-подсветка
Видео/аудио Не поддерживается Транскрипция + диаризация + распознавание лиц
Таймлайн событий Нет 6 категорий: решения, задачи, KPI, проблемы, обратная связь
Определение спикеров Нет Многофазный агент с face matching
Карточка клиента Нет Индексируется как приоритетный контекст
Адаптивная обработка Фиксированный пайплайн 4 агента с quality gates
Восстановление после сбоев Ручная переиндексация Автоматическое при старте воркера
Мультитенант Уровень приложения Изоляция на уровне namespace графа
Цепочка происхождения факта Ссылка на чанк Фрагмент → спикер → дата → совещание → цитата
Стоимость LLM-вызовов 1 вызов на запрос 1 вызов на операцию (оптимизировано)

8. Типы контента

Объём корпоративных знаний — это не только текстовые документы. KAG-система обрабатывает все основные форматы:

Формат Метод обработки Что извлекается Сложности
Текст
(.txt, .docx, .xlsx)
Прямой парсинг с определением кодировки (UTF-8, Windows-1251) Полный текст → классификация → сущности → граф Минимальные. Самый надёжный формат.
PDF
(в т.ч. сканы)
Vision-модель (Gemini 2.5 Flash): рендеринг страниц → визуальный анализ Таблицы, списки, диаграммы, мелкий шрифт, заголовки. Постраничная обработка. Сложные многоколоночные PDF. Решается vision-подходом вместо текстового OCR.
Видео
(.mp4, .webm, .mov)
ffmpeg → Whisper (транскрипция) → диаризация → face matching Полная транскрипция с разметкой спикеров, таймлайн событий, лица участников Качество микрофона. Лимит: 2 часа / 2 ГБ.
Аудио
(.mp3, .wav, .m4a)
Whisper (gpt-4o-transcribe) → чанкинг по 10 мин Транскрипция → те же пайплайны, что и для текста Шумные записи. Решается через quality gates агентов.
Изображения
(.jpg, .png)
Vision-модель: визуальный анализ содержимого Текст на изображениях, диаграммы, скриншоты Низкое разрешение. Минимальный порог: 50 символов на страницу.
Веб-страницы Playwright (JS-сайты) / aiohttp (статика), BFS-обход Полный текст + навигационная структура JS-heavy сайты. Решается автоопределением + headless браузер.
Конкурентное преимущество: Большинство RAG-решений на рынке работают только с текстом и простыми PDF. Обработка видеозаписей совещаний с автоматическим извлечением решений и задач — уникальная возможность KAG-платформы Completo.

9. Примеры работы на реальных сценариях

Пример 1: Проверка маркетингового текста

Вход: Менеджер написал пост для соцсетей: «Наш продукт увеличивает конверсию на 40% за первый месяц».

Что делает система:

  1. Ищет в графе знаний все факты о конверсии для данного клиента
  2. Находит запись совещания от 15.02: «По итогам теста конверсия выросла на 23% за 3 месяца»
  3. Сравнивает: 40% ≠ 23%, «первый месяц» ≠ «3 месяца»

Результат: Красный — «Противоречие с данными совещания от 15.02.2026. Фактическое значение: рост конверсии 23% за 3 месяца. Источник: Иванов А., запись встречи с клиентом.»

Пример 2: Извлечение событий из видео совещания

Вход: Запись совещания с клиентом (47 минут, 3 участника).

Что делает система:

  1. Транскрибирует видео → определяет спикеров (Сидоров — клиент, Петрова — менеджер, Козлов — аналитик)
  2. Классифицирует чанки: 12 продуктовых фактов, 8 нарративных, 3 административных
  3. Из нарративных извлекает события:

Результат:

  • Решение «Утвердили бюджет на Q2 в размере 2.5 млн» — Сидоров, 12:34
  • Задача «Подготовить медиаплан до 25 марта» — назначено: Козлов
  • KPI «CTR вырос с 1.2% до 1.8% (+50%)» — Петрова, 28:15
  • Проблема «Задержка запуска кампании на 2 недели из-за согласований» — Сидоров, 35:42

Пример 3: Обнаружение противоречия между документами

Ситуация: Загружен новый протокол совещания, в котором написано: «Бюджет на рекламу — 1.5 млн/мес».

Что делает система:

  1. Индексирует новый фрагмент → извлекает сущности (Бюджет, Реклама, Сумма)
  2. Ищет в графе связанные факты → находит фрагмент от 10.01: «Бюджет на рекламу утверждён 2 млн/мес»
  3. LLM сравнивает: 1.5 млн ≠ 2 млн → фиксирует противоречие

Результат: Возможное противоречие — «Бюджет на рекламу: 1.5 млн (новый документ) vs 2 млн (протокол от 10.01). Разница: 500 тыс., давность: 80 дней». Менеджер подтверждает: бюджет был пересмотрен → система запоминает коррекцию.

Пример 4: Чат с базой знаний

Запрос: «Какие ключевые решения были приняты по проекту X за последний месяц?»

Что делает система:

  1. Векторный поиск → 5 релевантных фактов
  2. Граф-запрос: Проект X → HAS_DECISION → Decision → 3 дополнительных факта
  3. Полнотекстовый поиск → 2 факта с точным упоминанием названия проекта
  4. Дедупликация → 7 уникальных фактов

Ответ: Структурированный список решений с датами, участниками и ссылками на первоисточники (запись совещания, документ, чат).

10. Применение для производителя: конкретные сценарии

Ниже — сценарии, где ИИ база знаний решает реальные задачи компании-производителя с дилерской сетью, маркетингом и операторами.

Работа с дилерской сетью

Единая база продуктовых знаний для дилеров

Производитель загружает в систему: технические характеристики продукции, прайс-листы, условия гарантии, FAQ по рекламациям, маркетинговые материалы. Дилеры получают доступ к чат-боту, который мгновенно отвечает на вопросы клиентов — с точными цифрами и ссылками на первоисточник.

Результат: дилер не звонит менеджеру с вопросом «а какой у этой модели расход?» — он получает ответ за 10 секунд. Информация всегда актуальная: обновили прайс — база знаний обновилась автоматически.

Контроль качества дилерских материалов

Дилеры часто создают собственные рекламные материалы: листовки, посты, описания на сайтах. Система верификации автоматически проверяет их на соответствие актуальным характеристикам, ценам и позиционированию бренда.

Результат: маркетинг производителя загружает текст дилера → система подсвечивает: «Указана мощность 150 л.с., в актуальной спецификации — 145 л.с.» Ошибка не дойдёт до клиента.

Операторы и техподдержка

ИИ-ассистент для операторов колл-центра

Оператор получает звонок: «У меня модель X, и она не запускается при температуре ниже -20». Вместо того чтобы искать в толстом мануале, оператор задаёт вопрос базе знаний и за секунды получает: температурный диапазон эксплуатации, инструкцию по холодному пуску, список известных проблем по этой модели — с номерами сервисных бюллетеней.

Результат: среднее время обработки звонка сокращается с 8-10 минут до 2-3 минут. Новый оператор выходит на уровень опытного за дни, а не за месяцы.

Анализ обращений и выявление системных проблем

Система автоматически извлекает из записей звонков и обращений: какие проблемы встречаются чаще всего, по каким моделям, в каких регионах. Строит таймлайн: «В марте резко выросло количество обращений по модели Y с жалобой на шум в двигателе».

Результат: производитель видит системную проблему до того, как она станет массовой рекламацией. Можно проактивно выпустить сервисный бюллетень.

Маркетинг и контент

Верификация маркетинговых материалов перед публикацией

Маркетолог написал статью для блога, пресс-релиз или описание для каталога. Перед публикацией текст проходит через систему верификации: она проверяет каждый факт — цены, характеристики, сравнения с конкурентами, цитаты — на соответствие базе знаний.

Результат: зелёный — всё корректно, можно публиковать. красный — «указана цена 2.5 млн, актуальная цена по прайсу от 01.03 — 2.8 млн». Ошибки отлавливаются до публикации.

Генерация контента на основе проверенных данных

Нужно написать описание продукта для сайта, подготовить сравнительную таблицу, сформировать ответ на запрос клиента. Система генерирует текст, опираясь строго на факты из базы знаний — с указанием источников. Нет «галлюцинаций» — каждое утверждение подкреплено документом.

Результат: копирайтер получает черновик с корректными данными, а не придумывает характеристики из головы. Время на подготовку материала сокращается в 3-5 раз.

Мониторинг конкурентов и рынка

В базу знаний загружаются материалы конкурентов: каталоги, прайс-листы, обзоры, статьи. Система строит граф: кто какие продукты выпускает, по каким ценам, с какими характеристиками. Можно задать вопрос: «Чем наша модель X отличается от аналога конкурента Y?» — и получить структурированное сравнение.

Результат: отдел продаж получает актуальные конкурентные карточки, а не устаревшие таблицы в Excel.

Управление знаниями и протоколирование

Автоматический протокол совещаний с дилерами и клиентами

Видеозапись совещания загружается в систему. Автоматически: транскрипция, определение участников, извлечение решений, задач, обсуждённых KPI, проблем. Менеджеру не нужно писать follow-up — он уже сформирован.

Результат: решения не теряются. Через полгода можно найти: «Что мы договорились с дилером Z на встрече в марте?» — и получить точный ответ с цитатой из записи.

Обнаружение противоречий в документации

Техническая документация, маркетинговые материалы и данные с сайта часто расходятся: в каталоге одни характеристики, на сайте другие, в презентации третьи. Система автоматически обнаруживает такие расхождения при загрузке каждого нового документа.

Результат: единый источник правды. Противоречия видны сразу, а не когда клиент указал на ошибку.

Сводка: где экономит время и деньги

Сценарий Экономия Кто выигрывает
Ответы дилерам на вопросы по продукции -80% времени менеджера Отдел продаж, дилерская сеть
Верификация маркетинговых текстов Минус 70-90% фактических ошибок Маркетинг, PR
Обработка звонков в техподдержке С 8 мин до 2-3 мин на звонок Колл-центр, сервис
Протокол совещаний 2-3 часа ручной работы на встречу Менеджмент
Подготовка контента В 3-5 раз быстрее с проверенными данными Контент-команда
Onboarding новых сотрудников Выход на продуктивность в 2-3 раза быстрее HR, руководители
Обнаружение противоречий в документации Автоматически, без ручной сверки Все отделы

11. Открытый vs закрытый контур: где хранятся данные

Один из главных вопросов при внедрении ИИ базы знаний: где физически обрабатываются ваши документы? Есть два варианта — облако (данные обрабатываются на серверах провайдера) и собственный сервер (все данные остаются внутри компании).

Открытый контур (облако)

Данные обрабатываются внешними LLM-провайдерами

  • Плюсы:
  • Быстрый старт — не нужно покупать сервер
  • Всегда свежие модели
  • Масштабирование по запросу
  • Низкий порог входа: от 20-30 тыс. ₽/мес

  • Минусы:
  • Данные передаются третьим лицам
  • Зависимость от провайдера (блокировка, смена цен)
  • Latency зависит от интернета
  • Ограниченный контроль над моделями

Подходит для: стартапов, команд без чувствительных данных, MVP

Закрытый контур (on-premise)

Все данные и модели — на собственном сервере

  • Плюсы:
  • Полный контроль над данными (compliance, NDA)
  • Нет зависимости от внешних сервисов
  • Предсказуемая стоимость (capex вместо opex)
  • Работает без интернета
  • Нет лимитов по токенам

  • Минусы:
  • Высокие начальные инвестиции (сервер)
  • Нужна экспертиза для обслуживания
  • Обновление моделей — ручное

Подходит для: банки, госсектор, компании с NDA, крупный бизнес

KAG-платформа Completo работает в обоих режимах. Базовая конфигурация использует облачных LLM-провайдеров через unified gateway с автоматическим фейловером. Для закрытого контура — те же модели разворачиваются локально на GPU-сервере.

12. Закрытый контур: что нужно из оборудования

Для работы ИИ-моделей на собственном оборудовании нужен специальный сервер с видеокартами (GPU) — именно они выполняют вычисления для ИИ. Обычный офисный сервер не подойдёт. Ниже — примеры конфигураций под разные масштабы бизнеса.

Минимальная конфигурация (малый бизнес, до 50 пользователей)

# Базовая конфигурация — 1 модель одновременно
CPU: AMD EPYC 7313 (16 cores)
RAM: 128 GB DDR4 ECC
GPU: 1× NVIDIA A100 80GB # или 2× NVIDIA A6000 48GB
SSD: 2 TB NVMe (RAID 1)
Сеть: 10 Gbit/s

# Какие модели поместятся:
Reasoning (8B): Qwen3-8B — 16 GB VRAM # извлечение сущностей
Chat (32B): Qwen3-32B-AWQ — 40 GB VRAM # основная модель (квантизация)
Embeddings: Qwen3-Embedding-4B — 8 GB VRAM # векторизация
Внимание: только 1 модель одновременно (переключение ~10 сек)

# Примерная стоимость сервера:
Покупка: 1 800 000 — 2 500 000 ₽
Аренда: от 150 000 ₽/мес (Selectel, Cloud.ru)

Рекомендуемая конфигурация (средний бизнес, 50-200 пользователей)

# Оптимальная конфигурация — все модели одновременно
CPU: 2× AMD EPYC 7543 (32 cores each)
RAM: 256 GB DDR4 ECC
GPU: 2× NVIDIA A100 80GB # или 4× NVIDIA A6000 48GB
SSD: 4 TB NVMe (RAID 10)
Сеть: 25 Gbit/s

# Распределение по GPU:
GPU 1: Qwen3-32B-AWQ (40 GB) + Qwen3-Embedding-4B (8 GB)
GPU 2: Qwen3-8B (16 GB) + Gemma-3 27B Vision (30 GB)
# Все модели работают параллельно, нет задержек на переключение

# Примерная стоимость:
Покупка: 3 500 000 — 5 000 000 ₽
Аренда: от 280 000 ₽/мес

Enterprise-конфигурация (крупный бизнес, 200+ пользователей, высокая нагрузка)

# Отказоустойчивость + масштабирование
CPU: 2× AMD EPYC 9534 (64 cores each)
RAM: 512 GB DDR5 ECC
GPU: 4× NVIDIA H100 80GB # или 8× NVIDIA A100 80GB
SSD: 8 TB NVMe (RAID 10)
Сеть: 100 Gbit/s (InfiniBand для GPU↔GPU)

# Возможности:
Параллельность: до 50 одновременных запросов
Модели: 70B+ без квантизации (полное качество)
Резервирование: N+1 на каждую модель

# Примерная стоимость:
Покупка: 12 000 000 — 20 000 000 ₽
Аренда: от 600 000 ₽/мес
Реальность закрытого контура: Это серьёзные инвестиции. Помимо сервера, нужен инженер для обслуживания (от 250 000 ₽/мес), электричество (GPU потребляют 300-700 Вт каждый), охлаждение, бесперебойное питание. Суммарно на 3 года: закрытый контур обходится в 2-3 раза дороже облака, но даёт полный контроль над данными.

13. Стоимость внедрения и поддержки

Стоимость внедрения на рынке РФ

По данным открытых источников и коммерческих предложений российских интеграторов (2025-2026):

Тип проекта Исполнитель Стоимость Срок
RAG-чатбот (MVP, только текст) Фриланс / небольшая команда 200 000 — 800 000 ₽ 1-3 недели
RAG для отдела (Yandex Cloud + YandexGPT) Партнёры Yandex Cloud 500 000 — 2 млн ₽ 2-6 недель
RAG на Cloud.ru (open-source модели) Cloud.ru + интегратор 300 000 — 1.5 млн ₽ 2-4 недели
RAG для департамента (Just AI, Naumen и др.) Средние AI-студии 2 — 8 млн ₽ 1-3 мес.
Enterprise RAG (Сбер Solutions, MTS AI Cotype) Крупные интеграторы 5 — 30 млн ₽ 3-6 мес.
GigaChat для бизнеса (on-premise) Сбер / партнёры от 2 млн ₽/год (подписка) 2-4 мес.

Внедрение KAG от Completo

KAG-платформа Completo — готовый продукт. Клиент не оплачивает разработку с нуля — он получает развёртывание существующей системы с настройкой под свою предметную область. Рекомендуемый путь: начать с пилота, оценить результат, затем масштабировать.

Полное внедрение (облако)

После успешного пилота

от 350 тыс. ₽ итого
оплата пилота (150 тыс.) засчитывается, доплата — от 200 тыс.
  • Миграция на инфраструктуру клиента (при желании)
  • Подключение всех источников данных
  • Интеграция с внутренними системами
  • Обучение команды
  • Загрузка полной базы знаний
  • Срок: 2-4 недели

Закрытый контур (on-premise)

Когда нужен полный контроль

от 1 млн ₽
развёртывание (без сервера)
  • Всё из облачного внедрения +
  • Развёртывание LLM на GPU-сервере клиента
  • Настройка и оптимизация инференса
  • Нагрузочное тестирование
  • Документация по обслуживанию
  • Срок: 4-8 недель
Почему так доступно: платформа уже разработана и работает в продакшене. Стоимость покрывает настройку под конкретную предметную область и обучение команды — без затрат на разработку с нуля. Пилот позволяет увидеть результат на реальных данных за 1-2 недели и принять взвешенное решение о масштабировании.

Стоимость API провайдеров (справочно, актуально на начало 2026)

Простое объяснение: токен — это единица текста для ИИ (примерно 1 слово = 1-2 токена). Один полноценный запрос к базе знаний потребляет примерно 2 000-5 000 токенов. То есть при цене 1 ₽ за 1 000 токенов один запрос стоит 2-5 ₽.

Провайдер Модель Ввод (за 1K токенов) Вывод (за 1K токенов) Примечание
Yandex Cloud (AI Studio)
Yandex YandexGPT Lite 0.13 ₽ 0.13 ₽ Быстрая, для простых задач
Yandex YandexGPT Pro 5.1 0.54 ₽ 0.54 ₽ Основная для RAG
Yandex Embeddings 0.007 ₽ / 1K токенов Векторизация текста
Сбер (GigaChat 2)
Сбер GigaChat 2 Lite 0.20 ₽ 0.20 ₽ Free tier: 1 млн токенов/мес
Сбер GigaChat 2 Pro 1.38 ₽ 1.38 ₽ Сбалансированная
Сбер GigaChat 2 Max 1.38 ₽ 2.76 ₽ Максимальное качество
Сбер Embeddings 0.04 ₽ / 1K токенов Векторизация
Cloud.ru (Evolution AI Factory)
Cloud.ru Qwen3-235B 0.017 ₽ 0.05 ₽ Open-source модели на российской инфраструктуре
Cloud.ru GLM-4.5 0.055 ₽ 0.22 ₽ Мощная reasoning-модель
Cloud.ru Qwen3-Coder 0.04 ₽ 0.08 ₽ Для кодогенерации и сложных задач
Для ориентира: при средней нагрузке в 500 запросов/день на YandexGPT Pro стоимость API составит примерно 40 000-60 000 ₽/мес. На Cloud.ru с open-source моделями — в 5-10 раз дешевле, но потребуется больше работы по интеграции.

Ежемесячная поддержка

Статья расходов RAG (облако) KAG (облако) KAG (on-premise)
LLM-провайдер (токены) 3-15 тыс. ₽ 5-20 тыс. ₽ 0 ₽ (свои модели)
Инфраструктура (серверы) 3-8 тыс. ₽ 5-15 тыс. ₽ 150-300 тыс. ₽
(аренда GPU или амортизация)
Техподдержка и обновления 10-30 тыс. ₽ 20-40 тыс. ₽ 50-100 тыс. ₽
Инженер (on-premise) 100-200 тыс. ₽
(частичная занятость)
Итого в месяц 15-50 тыс. ₽ 30-75 тыс. ₽ 300-600 тыс. ₽
ROI: KAG-система окупается за счёт:
  • Экономия времени менеджеров: поиск информации 30 сек вместо 30 мин (х60)
  • Снижение ошибок: автоматическая верификация контента (минус 70-90% фактических ошибок)
  • Автоматический протокол: извлечение решений и задач из видео экономит 2-3 часа на совещание
  • Обнаружение конфликтов: предотвращение использования устаревших данных

Итоговая рекомендация

RAG — это хорошая отправная точка. Он решает базовую задачу: «найти похожий текст и ответить». Для простой документации и FAQ — этого достаточно.

Но для серьёзной работы с корпоративными знаниями — когда нужно понимать структуру, обнаруживать противоречия, обрабатывать видео и сложные PDF, верифицировать контент и строить таймлайн событий — нужен KAG.

Почему KAG-платформа Completo — уникальное предложение:

  • Единственное KAG-решение на рынке РФ — все конкуренты предлагают RAG
  • Работает с видео и аудио — автоматический протокол совещаний с извлечением решений
  • Обнаружение противоречий — ни одно готовое решение на рынке этого не умеет
  • Верификация контента — проверка маркетинговых материалов на соответствие фактам
  • Граф знаний с настраиваемой типизацией — не «мешок слов», а структурированное знание под конкретный бизнес
  • Адаптивные агенты — система подстраивается под качество входных данных
  • Гибкий контур — облако сейчас, on-premise когда потребуется

Оптимальный следующий шаг — пилотный проект на реальных данных: загрузить 50-100 документов, настроить типизацию под предметную область и увидеть результат за 1-2 недели. Это позволит оценить качество на практике, а не в теории.