ИИ и большие данные
- 01 Multimodal AI Monitoring
- 02 Large Models and NLP
- 03 AI Adoption and AI Governance
- 04 Explainable and Interpretable AI
- 05 AI Assistants and Chatbots
- 06 Predictive Analytics for Business Intelligence
- 07 AI Agents and Autonomous Systems
- 08 Business Process Automation and RPA
- 09 Data and Metadata Governance
- 10 Edge AI and Distributed Computing
- 11 Machine Learning and AI Frameworks
- 12 Interoperability and APIs
- 13 Neural Network Architecture
Разработан децентрализованный мультиагентный фреймворк, позволяющий общаться 150+ агентам с сохранение конфиденциальности, для целей построения продуктовых бандлов (несколько товаров или услуг, объединенных в один пакет по специальной цене)
Разработан эффективный метод дообучения больших диффузионных моделей arxiv.org/abs/2507.12142
Разработан подход по ускорению диффузионных моделей arxiv.org/abs/2510.17699
Разработаны более эффективные параметризация для дообучения диффузионных моделей arxiv.org/abs/2406.10019
Применили LLM для решения задач на табличных данных.
Разработали модели предиктивной аналитики и моделирования для инженерных приложений.
Разработали библиотеку для детектирования точек разладки во временных рядах.
Применили нейронные сети для задач в астрономии.
Разработан фрейворк для обучения/тестирования рекомендательных систем с помощью синтетических данных (симулятор взаимодейсвий пользователей с рекомендательной системой).
Разработана архитектура CREATE, позволяющая одновременно использовать секвенциальные и графовые подходы для построения рекомендаций. arxiv.org/pdf/2602.23471
Разработан протокол оценки устойчивости табличных ML-моделей к OOD-сдвигам: на основе мета-признаков датасета подбираются стрессовые train/test-разбиения и генерируются синтетические OOD-наборы, что позволяет тестировать деградацию качества модели до появления реальных OOD-наборов данных - openreview.net/pdf?id=BS68QcFppq
Разработана модификация генеративной модели WGAN-GP для генерации табличных данных, в которой распределения статистических и геометрических мета-признаков реальных и синтетических данных выравниваются через Wasserstein-1 loss, что стабилизирует обучение модели WGAN-GP, снижает риск расходимости и улучшает downstream utility/correlation alignment для AI-ready датасетов - ieeexplore.ieee.org/abstract/document/11415718
Разработан task-agnostic метод калибровки синтетических валидационных данных для выбора табличных ML-моделей: веса синтетических наблюдений подбираются так, чтобы поддерживать согласование лоссов ML-моделей между реальными данными и синтетическими, что повышает согласование ранжирования моделей на синтетических данных - openreview.net/pdf?id=YECegW8nBY
Разработка новых генеративных моделей для табличных данных на основе мостов Шредингера - openreview.net/pdf?id=nGOPKgzPR1
Платформа SmartMLOps mlops.hse.ru/ . Портфолио 5+ РИД. Модули системы покрывают компетенции в поднаправлениях:
Управление жизненным циклом прикладных сервисов ИИ (собственный контроллер Kubernetes). 15+ прикладных сервисов, 30+ LLM общего назначения. Встраивание в сторонние приложения. Облачная и on premise поставка.
а) модуль мониторинга ИИ моделей (Grafana, Vector, Loki, Victoria Metrics), 10+ дашбордов администратора и прикладных. Мониторинг ресурсов, запросов и системных журналов.
б) прототип модуля мониторинга ML-качества и дрейфа (ввод в эксплуатацию в 2026). Группы данных: вызовов модели, предсказания, эталонные значения, пользовательская обратная связь, события мониторинга, временные ряды показателей качества и сведения о порогах срабатывания.
Создана полная Концепция корпоративного озера данных. Реализованы прототипы компонент:
а) сбор метаданных, обновление онтологий. Протестировано на домене «Студент»: 3+ корпоративных инф. системы, 29 млн. записей.
б) «семантический слой» - умное сопоставление и контроль метаданных, LLM генерация человеко-читаемых описаний колонок. 8+ сущностей домена «Студент», выявлено 2К+ ошибок в данных.
а) модуль непосредственной передачи вычислений на суперЭВМ НИУ ВШЭ. publications.hse.ru/articles/1071518343
б) собственный контроллер Kubernetes, синхронные и асинхронные конвейеры распределенных вычислений в облаке (Яндекс, Сбер. и др).
в) модуль инференса на основе Kserve (прототип 2026).
а) упрощенный «язык» DSL для управления приложениями (функция inference).
б) визуальный и программный конструктор вычислительных конвейеров для прикладных модулей, поддержка Hugging face (прототип 2026).
а) REST API для всех задач управления ИИ-сервисами: развертывание, запуск, настройка, файловые операции и др.
б) Единая точка входа, регистрация, аутентификация (keyсloak, интеграция с личным кабинетом НИУ ВШЭ).
и и Ряд прикладных модулей, реализованных на платформе:
а) совместно с Д. Рябцев (ИСМЕД): NevoScan – определение рака кожи. EYAYS – анализ глазного дна.
б) совместно с Д. Швецов – бенчмаркинг LLM моделей для финансово-экономического сектора. Сервис определения благополучия студентов.
и др.
Разработаны собственные модели Z-DNABERT, GQ-DNABERT, OmicsFusion
Разработан пайплайн OmiXAI, интерпретирована HyrnaDNA, продолжаем тестировать другие методы xAI для LLM
11 Зарегистрирован 1 фреймворк в 1ую волну, 2025 - фреймворк для кардио, 2026 - для OmicsFusion
Разработаны разнообразные методы предсказания, поиска аномалий, поиска точек разладки во временных рядах, в том числе, полученных в реальных условиях link.springer.com/article/10.1007/s10994-026-07000-6 ieeexplore.ieee.org/abstract/document/10261192/ www.sciencedirect.com/science/article/abs/pii/S0952197626004185?via%3Dihub
Предложена система использования ИИ в науке для автоматизации статей и бенчмарк для неё (в рамках НИР)
Разработан подход к использованию нейросетей и других алгоритмов анализа данных на гибридных (CPU-GPU) компьютерных фермах. link.springer.com/article/10.1007/s41781-021-00070-2
Разработан метод инженерной оптимизации с помощью генеративных моделей arxiv.org/abs/2407.11917
Разработаны новые эффективные методы для сжатия и дообучения больших моделей. Результаты опубликованы на ведущих A*/A конференциях по машинному обучению:
Gorbunov, Mikhail, et al. "Group and shuffle: Efficient structured orthogonal parametrization." Advances in neural information processing systems 37 (NeurIPS), 2024
Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Denis Bobkov, Vera Soboleva, Aibek Alanov, Maxim Rakhuba. "LoRA meets Riemannion: Muon Optimizer for Parametrization-independent Low-Rank Adapters" ICLR 2026
Uliana Parkina, Maxim Rakhuba. "COALA: Numerically stable and efficient framework for context-aware low-rank approximation". Advances in Neural Information Processing Systems 38 (NeurIPS), 2025
E Grishina, M Gorbunov, M Rakhuba "ProcrustesGPT: Compressing llms with structured matrices and orthogonal transformations" Findings of ACL 2025
V Yusupov, M Rakhuba, E Frolov "Knowledge graph completion with mixed geometry tensor factorization" AISTATS 25
I Peshekhonov, A Arzhantsev, M Rakhuba "Training a Tucker model with shared factors: a Riemannian optimization approach" AISTATS 24
Разработка математического аппарата, методов и моделей с целью повышения интерпретируемости ИИ методов, а также повышения устойчивости работы и надежности разрабатываемых алгоритмов машинного и глубинного обучения.
Разработаны методы генеративного моделирования для задач безусловной генерации изображений и переноса стиля, основанные на подходах стохастического оптимального управления и построения мостов Шредингера (openreview.net/forum?id=2rgYVFiWPL и openreview.net/forum?id=2I4a6qsesO).
11.2. Разработан алгоритм стохастической оптимизации при наличии сверхтяжелых "хвостов" у распределения шума (proceedings.mlr.press/v238/puchkin24a.html).
11.3. Разработаны алгоритмы обнаружения разладки во временных рядах в режиме реального времени (proceedings.mlr.press/v206/puchkin23a.html и arxiv.org/abs/2408.14073).
11.4. Разработан алгоритм восстановления гладкого многообразия малой размерности по облаку точек (www.jmlr.org/papers/v23/21-0338.html).
11.5. Разработан адаптивный алгоритм многоклассовой классификации, основанный на ансамблировании оценок метода k ближайших соседей (doi.org/10.1051/ps/2019021).
Разработан фреймворк для проведения нестандартного A/B тестирования на выборках малого объем. Фреймворк включает в себя методы повышения чувствительности A/B тестирования с использованием методов снижения дисперсии и оптимального транспорта. Проект выполнялся в рамках совместного НИР со Сбером (2023 год).
11.1. Разработан фреймворк для обучения генеративных потоковых сетей на языке программирования JAX. Фреймворк позволил ускорить обучение алгоритмов данного класса до 100 раз относительно базового пакета (torch.gfn): arxiv.org/pdf/2511.16592
11.2. Разработан фреймворк для ранжирования алгоритмов рекомендательных систем на основе модели Брэдли-Терри. Фреймворк позволяет предсказывать результаты работы алгоритмов на новых датасетах и выбирать сильный набор базовых алгоритмов для нового датасета. Статья с данным фреймворком принята на KDD-2026: arxiv.org/pdf/2606.07492
11.3 Разработан фреймворк для интеграции рекомендательных систем на основе трансформерных архитектур и на основе графовых нейронных сетей для повышения качества работы базовых архитектур в задаче последовательных рекомендаций: arxiv.org/pdf/2602.23471
11.4 Разработан фреймворк для оценки алгоритмов контекстуальных бандитов на основе методов выборки по значимости. Статья с данным фреймворком принята на WWW-2026:
dl.acm.org/doi/pdf/10.1145/3774904.3792928
Доказаны оценки скорости сходимости в ЦПТ для федеративной линейной стохастической аппроксимации. Также проанализирован метод мультипликативного бутстрапа для статистического вывода. Этот метод позволяет оценивать меру неопределенности моделей обучения с подкреплением. Статья arxiv.org/abs/2605.19629.
В другой работе исследован метод интерполяции Ричардсона-Ромберга для линейной стохастической аппроксимации и доказана его эффективность при оптимальном выборе размера шага в зависимости от количества итераций. Статья arxiv.org/abs/2508.05570
Предложен подход к декомпозиции робототехнической задачи посредством оркестрации агентом-планировщиком.
Имею междисциплинарный опыт на стыке физики полупроводников, молекулярного моделирования и машинного обучения для материаловедения. Моя работа связана с органическими и гибридными полупроводниками, молекулярными кристаллами, перовскитами и двумерными материалами, где ключевую роль играют структура материала, межмолекулярные взаимодействия, перенос заряда и экситонов, а также оптоэлектронные свойства. В рамках текущих проектов я применяю методы машинного обучения и современные AI frameworks для анализа и предсказания свойств материалов. Особый интерес представляет разработка и обучение генеративных моделей, способных предлагать новые молекулярные или кристаллические структуры с заданными физическими характеристиками. Мой опыт включает работу с атомистическими структурами, CIF/XYZ/PDB-файлами, DFT/TD-DFT расчётами, ML-потенциалами, transfer integrals, энергетическими характеристиками и дескрипторами материалов.
Large Models and NLP
А) Разработана и развивается система интеллектуального анализа больших данных iFORA (технологии NLP + LLM). Она позволяет выявлять закономерности развития отраслей и рынков, оперативно отслеживать новые тренды и проводить форсайт-исследования на основе обработки научных публикаций, патентов, рыночной аналитики и профессиональных СМИ, вакансий, грантов и др. Линейка продуктов iFORA включает более 50 модулей (в т.ч. анализ технологий и рынков, прогнозы, оценка рисков, анализ компетенций, новейшие NLP-решения, включая платформу iFORA и коробочные решения). Система использовалась при реализации более 150 проектов для государственного сектора, банков, крупных технологических компаний, компаний – отраслевых лидеров и др. по широкому спектру отраслей экономики. По итогам экспертизы разработок российских организаций, проведенной по поручению Заместителя Председателя Правительства России Д.Н. Чернышенко, iFORA признана лучшей отечественной разработкой в своем классе. Ссылка: issek.hse.ru/ifora/
Б) Создана собственная адаптированная LLM (iFORA LLM). Модель представляет собой адаптацию фундаментальной большой языковой модели Qwen3-8B под выполнение узкоспециализированных задач в сфере науки, технологий и инноваций (НТИ). Для адаптации базовой модели к домену НТИ применялся метод обучения с учителем. Для дообучения модели был подготовлен комбинированный корпус данных, включающий наборы данных T-wix и iFORA-QA (собственный обучающий датасет) объемом 19792 примера с градацией сложности задач от простых фактологических вопросов до комплексных аналитических задач. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель. Ссылки: www.hse.ru/news/science/1159127895.html ; www1.fips.ru/fips_servl/fips_servlet?DB=EVM&DocNumber=2025688511&TypeFile=html
AI Assistants and Chatbots
Разработан «iFORA-ассистент: анализ рыночных трендов»: мгновенное выявление рыночных трендов с применением «умного поиска» по релевантным документам (RAG) и алгоритмов текстовой генерации. Используется только актуальная рыночная аналитика ведущих мировых и российских think tanks. Взаимодействие в формате диалога, no-code интерфейс, тематические проекты с сохранением истории поиска, ответы со ссылками на полнотекстовые документы, ранжированные по релевантности запросу, распознавание визуализаций и генерация ответов с их использованием. Ссылка: issek.hse.ru/ifora/market_analysis_assistant
Разработан макетный образец полигона Цифровых двойников с репозиторием доверенных нейросетей и фрейморков, предназначенный для проектирования систем управления телеком оборудованием 5G