Юридические услуги

ИИ-ассистент в закрытом контуре для юридической компании

Автоматизировали рутинный Due Diligence: от настройки серверов и инфраструктуры до обучения моделей на документах и разработки RAG-пайплайна.

Qwen32B
Nvidia H200
Python
OpenWebUI
Qdrant
Docling

Задача

Перед клиентом, крупной юридической компанией, специализирующейся на M&A, стояла задача радикально ускорить и повысить эффективность процесса юридической экспертизы при заключении сделок (Due Diligence). Команда юристов тратила сотни часов на ручную обработку огромных массивов документов: договоров, протоколов, соглашений и выписок.

Клиенту требовалось безопасное внутреннее решение ("корпоративный ChatGPT"), способное автоматизировать рутинные задачи:

  1. Классифицировать входящие документы в соответствии со структурой запроса DD (Due Diligence Request List).
  2. Извлекать ключевую информацию: сущности (стороны, даты, суммы), а также формировать краткое содержание по каждому документу.
  3. Обеспечивать возможность задавать вопросы к документам, в том числе к очень длинным файлам (100+ страниц), которые не помещаются в стандартное контекстное окно LLM.

Ключевым требованием была полная конфиденциальность и безопасность данных. Решение должно было работать исключительно внутри IT-контура клиента (on-premise), без отправки какой-либо информации во внешние облачные сервисы.

Решение

Мы подошли к задаче комплексно, выделив команду, включающую не только ML-инженеров и Data Scientist'ов, но и внештатного юриста-аналитика для глубокого погружения в предметную область.

Работа была разделена на два ключевых направления:

Проектирование и развертывание On-Premise AI-инфраструктуры

Мы спроектировали и развернули с нуля полный технологический стек на серверах клиента. Из-за строгих политик безопасности заказчика, развертывание проводилось в "бесконтактном" режиме: наши ML-инженеры удаленно консультировали и руководили IT-специалистами клиента через сессии Anydesk, не имея прямого SSH-доступа.

Внедренная архитектура включает:

  • Интерфейс: OpenWebUI для взаимодействия пользователей с моделями.
  • Инференс моделей: vLLM для эффективной работы локальных LLM (включая Qwen).
  • RAG-пайплайн: Векторная база данных Qdrant, сервисы Embeddings и Reranker для качественного поиска по документам.
  • Обработка документов: Docling и другие OCR-решения для распознавания PDF и изображений.
  • Автоматизация: Платформа n8n для построения бизнес-логики и пайплайнов обработки.
  • Обвязка: PostgreSQL, Redis и MinIO для баз данных, кэширования и S3-хранилища.


Разработка и итеративная доработка AI-агентов

Параллельно с настройкой "железа", наша команда Data Science и аналитики приступила к решению бизнес-задач:

  • Автоматическая классификация: Был разработан пайплайн, который автоматически "читает" входящие документы (например, протоколы собраний) и классифицирует их по нужным пунктам чек-листа DD. Мы итеративно доводили точность, используя обратную связь от нашего юриста-аналитика и данные клиента.
  • Анализ сверхдлинных документов: Мы реализовали "Map-Reduce" логику в n8n, которая позволяет задавать вопросы и получать саммари по документам объемом 160 000+ токенов, разбивая их на части и синтезируя финальный ответ.
  • Извлечение терминов: Был создан отдельный агент, который с высокой точностью находит и извлекает определения терминов, встречающихся в договорах.

Результаты

  • Клиент получил полностью работоспособную, безопасную и управляемую AI-платформу, развернутую в собственном IT-контуре.
  • Внедрен первый ключевой бизнес-процесс: автоматическая классификация юридических протоколов по сложным сценариям DD с точностью 85%.
  • Создан и протестирован пайплайн для глубинного анализа и суммаризации сверхдлинных документов, что ранее было невозможно с использованием стандартных инструментов.
  • Точность извлечения юридических терминов из договоров в ходе итераций была доведена до 94%.
  • Сотрудники клиента получили доступ к чат-интерфейсу, начали активное тестирование системы и дали положительную обратную связь по первым сценариям, таким как "Анализ договора".