Big Data Engineer (NRT/Spark)
24 Марта 2026
Город:
Санкт-Петербург
Занятость:
Полная занятость
Компания "Яндекс"
Описание проекта
Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов.
Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.
Ключевые продукты Финтеха Яндекса: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, Кредитные продукты, Яндекс ID, Яндекс Про и многое другое
Это сложная инженерная и аналитическая среда, где пересекаются хайлоад, большие данные и жёсткие требования регуляторов.
Здесь ты столкнёшься с:
- Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей
- Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации
- Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы
- Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системам
В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача - развитие платформы для обработки NRT- данных (near real time), повышение отказоуйсточивости и производительности потоковых процессов.
Какие задачи вас ждут:
-
Проектирование и развитие облачной data-платформы
Оптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных. -
Миграция с GreenPlum на Trino / S3
Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище. -
Построение единой observability-платформы для таблиц DWH
Создание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов. -
Ускорение текущих процессов поставки данных
Оптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных. -
Автоматизация ручных процессов
Построение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отадем рутину автоматике. -
Повышение безопасности доступа к данным
Выстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным. -
Построение тестовых окружений
Создание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений -
Развитие фреймворков обработки данных
Развитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки.
Ключевые требования
- Опыт коммерческой разработки от 4 лет
- Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы
- Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum
- Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны
- Уверенная работа с S3-совместимыми хранилищами
Стек для ежедневных задач:
- Языки: Python (основной для разработки пайплайнов и скриптов)
- Оркестрация: Apache Airflow (разработка пайплайнов)
- Обработка данных: Apache Spark (Spark SQL, DataFrame)
- Запросы: Trino (работа с данными через движок)
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
09 Апреля
Application Security Engineer( UserGate )
Санкт-Петербург
Компания "UserGate" О нас 24 часа в сутки мы детектируем атаки и с максимальной скоростью разрабатываем и публикуем рекомендации по защите...
25 Марта
Санкт-Петербург
Компания "Aston" Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 2500+ специалистов. Мы...
25 Марта
Технолог по внедрению рецептур и продуктов \ Engineer Factory Innovation
Санкт-Петербург
Компания "Mars" О позиции Сотрудник в данной роли поддерживает в качестве технолога / технического лидера все инновационные проекты, а также...
28 Марта
Специалист по валидации моделей (Junior Data Scientist) Управления модельных рисков и валидации
Санкт-Петербург
Компания "Банк ВТБ (ПАО)" Обязанности: Валидация моделей и оценка модельного риска с целью снижения вероятности реализации модельного риска...
29 Марта
Data Engineer( СПб ГУП Санкт-Петербургский информационно-аналитический центр )
Санкт-Петербург
Компания "СПб ГУП Санкт-Петербургский информационно-аналитический центр" Санкт-Петербургский информационно-аналитический центр разрабатывает...
Вакансия размещена в отрасли