<aside> ℹ️ Формулировка задачи:
Создать систему, которая с помощью RAG-подхода сможет детально ответить на вопросы пользователей по сложным финансовым данным.
</aside>
Достаточно часто открытая финансовая отчетность организаций хранится в PDF-документах и содержит табличные и текстовые данные со специфическим форматированием, а также отсканированные страницы. Данные такого формата плохо поддаются не только автоматической обработке (парсингу), но с трудом обрабатываются обученными специалистами, особенно в большом количестве.
Самым простым решением, очевидно, было бы увеличение количества людей, выделенных на ручную обработку и кросс-валидацию данных из документов, верно? Но как быть, если количество ресурсов ограничено, особенно если не хватает самого ценного - времени?
Именно в такой момент и требуется помощь LLM-моделей и использование подхода RAG, который вовремя и автоматически проверит источники и подготовит необходимые данные для аугментации запроса.
В рамках хакатона участникам предстоит создать pipeline работы с файлами указанного формата. Не забывайте, pipeline - это не просто одно действие, это последовательность, каждый шаг которой должен приближать необходимый результат.
Вам необходимо определить методы получения информации из pdf-файлов различных форматов, разработать с нуля подход, дающий возможность применения этих данных в вопросно-ответной системе на основе любых доступных LLM. Помните, что поставленная задача - это не только проверка технических возможностей ваших pipeline-ов, но бизнес-кейс, который нужно оптимизировать в плане затрат, масштабируемости и удобства интеграции.
Обращаем ваше внимание, что участникам в рамках хакатона будут предоставлен доступ к моделям YandexGPT и Sber GigaChat. Мы ожидаем от участников в том числе сравнительной исследовательской работы по использованию этих LLM в рамках поставленной задачи.
В обязательном порядке использовать: