AI-решения для бизнеса
Совместно со студией разработки МФТИ
Цифровой библиотекарь Истра
с AI-аватаром
Интеллектуальный помощник для библиотеки СберУниверситета
на базе передовых технологий искусственного интеллекта
О проекте
Создание инновационного цифрового библиотекаря — AI-ассистента с реалистичным аватаром Истры, который поможет сотрудникам и студентам СберУниверситета быстро находить нужную литературу, получать персонализированные рекомендации и взаимодействовать с библиотечным фондом через естественный голосовой диалог.
Варианты реализации
Быстрый запуск на проверенных облачных решениях с возможностью масштабирования
Что входит в решение:
- Интеграция платформы D-ID для создания реалистичного аватара из фотографии
- Подключение GPT-5/Claude 4.1 Opus для интеллектуальных диалогов
- Настройка векторного хранилища (Pinecone) для базы знаний библиотеки
- Система распознавания речи DeepGram/Whisper
- Синтез речи через ElevenLabs с интеграцией в D-ID
- Веб-интерфейс для отображения на 55" экране
- Промпт-инжиниринг против галлюцинаций модели
- Система рекомендаций с аналитикой запросов
- 30 дней технической поддержки после запуска
Известные ограничения (решаем в следующих итерациях):
- Возможны ошибки в произношении сложных фамилий авторов (особенно индийских)
- Задержка ответа 6-8 секунд из-за облачного рендеринга
- Аватар отображается по пояс (не полноростовой)
- Отсутствие функции прерывания ответа
- Поддержка только русского языка на первом этапе
- Ошибки распознавания речи ~10% случаев
Технологический стек:
- Frontend: React-приложение, WebRTC для стриминга
- Аватар: D-ID API для генерации видео
- Speech-to-Text: DeepGram/Whisper API
- LLM: Claude 4.1 Opus / GPT-5 через API
- Text-to-Speech: ElevenLabs API
- База знаний: Pinecone векторное хранилище
- Backend: Node.js/Python FastAPI
Все компоненты работают через API в облаке, минимальные требования к локальной инфраструктуре
Полностью кастомизированная разработка с решением всех технических вызовов
Преимущества расширенной версии:
- Кастомная система распознавания речи с обучением на библиотечной лексике
- Продвинутый синтез речи с правильными ударениями (наработки из проекта аудиокниг)
- Мультиязычная поддержка (русский + английский + другие языки)
- Интеллектуальная система определения говорящего в шумной среде
- Возможность прерывания и управления диалогом
- Снижение задержки ответа до 2-3 секунд (локальная инфраструктура)
- 3D-аватар в полный рост с расширенной анимацией
- Глубокая интеграция с GigaChat и корпоративными системами Сбера
- Локальное векторное хранилище в контуре Сбера
- Точность распознавания речи >95%
Технологический стек:
- Инфраструктура: Серверы Сбера, локальное развертывание
- 3D-аватар: Кастомная разработка, Unreal Engine
- Speech-to-Text: Кастомная модель на базе Whisper, обученная на домене
- LLM: GigaChat + резервный GPT/Claude
- Text-to-Speech: Кастомная модель с корректными ударениями
- База знаний: Локальное RAG-решение на базе FAISS
- Оркестрация: Kubernetes в контуре Сбера
Полностью локальное решение, максимальная скорость и безопасность
Поэтапная реализация: сначала MVP, затем доработка на основе опыта
Преимущества поэтапного подхода:
- Этап 1: Запуск MVP за 3 млн руб (Вариант 1)
- Сбор обратной связи и выявление реальных проблем
- Этап 2: Целевые доработки критичных проблем (3-4 млн руб)
- Экономия на решении только реально важных задач
- Возможность остановиться на MVP, если качество устраивает
- Итоговая стоимость ниже, чем Вариант 2
Оптимальная стратегия: Запускаем пилот → Тестируем 2-3 месяца → Определяем критичные проблемы → Решаем только то, что действительно важно
Полностью автономное решение на локальном оборудовании без облака
Особенности локального решения:
- Серверная стойка с GPU для инференса моделей (A100/H100)
- Локальная LLM (уменьшенная версия, ограниченные возможности)
- Полная автономность от интернета
- Минимальная задержка (~1-2 сек)
- Высокая стоимость железа (импорт GPU)
- Сложность обслуживания и обновления
- Требуется серверная комната (не поместится за стойкой)
- Необходимо закупить GPU (сложности с импортом)
- Ограниченные возможности локальных LLM vs облачных
- Высокие эксплуатационные расходы
Мы предоставляем API для генерации видео, вы разрабатываете backend
Что включено:
- API для генерации видео с аватаром
- Вход: текст для озвучивания
- Выход: видеопоток с говорящим аватаром
- Техническая документация и примеры
- Базовая техподдержка
Вся логика работы с книгами, распознавание речи и LLM — на стороне Сбера
Путь развития решения
Рекомендуемая стратегия поэтапного внедрения и улучшения системы
10 недель
Сбор метрик
доработок
2-3 месяца
решение
Инновационные возможности
Интеллектуальная подсветка полок
Революционная система навигации по библиотеке с автоматической подсветкой нужных полок
- RFID-метки на книгах для точного позиционирования
- LED-подсветка полок, синхронизированная с рекомендациями
- Визуальная навигация к нужной книге
- Автоматическая инвентаризация фонда
Включает RFID-считыватели, LED-ленты, контроллеры и интеграцию
Рекомендуемое оборудование
Профессиональное оборудование для оптимальной работы цифрового библиотекаря
Ростовой экран
55" 4K дисплей
на мобильной стойке
Вертикальная ориентация
180 000 ₽
Профессиональный микрофон
Суперкардиоидный
с шумоподавлением
Направленный паттерн
120 000 ₽
Акустическая система
Направленные динамики
для чистого звука
Без эха
50 000 ₽
Общая стоимость оборудования: 350 000 ₽
Этапы реализации проекта
Общий срок реализации: 10 недель для Варианта 1 (MVP)
Вариант 2: 16-20 недель | Вариант 3: 10 недель + 8-10 недель на доработки
Дополнительные услуги
Создание 3D-аватара в полный рост
Разработка полноростового 3D-аватара Истры с расширенной анимацией, жестикуляцией и мимикой
Интеграция с GigaChat
Подключение и настройка работы с языковой моделью GigaChat от Сбера (требует API-моста)
Мультиязычная поддержка
Добавление поддержки английского и других языков для международных гостей
Система подсветки полок
RFID-метки + LED-подсветка для визуальной навигации к рекомендованным книгам
Итоговое предложение
Все цены указаны без учета НДС • Возможна поэтапная оплата • Специальные условия для долгосрочного сотрудничества
Специальный бонус
3 месяца бесплатного доступа к платформе AlpinaGPT
25+ AI-моделей для работы библиотеки и СберУниверситета:
GPT-5, Claude 4.1 Opus, Midjourney, FLUX, HeyGen и другие инструменты.
Платформа включает готовых библиотекарей-ассистентов и возможность создания агентов.
Готовы обсудить проект?
Мы открыты для вопросов и готовы адаптировать решение под ваши задачи
Ольга Староста
Директор по продажам B2B
o.starosta@alpinadigital.ru
+7 915 211 73 75
Жемал Хамидун
CPO Alpina Digital
j.hamidun@alpinadigital.ru
+7 960 712 25 72
Telegram: @JHamidun
Егор Задворнов
Founder AI Avatars
Партнер Студия разработки МФТИ
Эксперт по AI и аватарам
Инна Соина
Руководитель отдела консалтинга
i.soina@alpinadigital.ru
+7 915 181 86 06