Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

7 Просмотры
Издатель
Гость: Влад Гоцуляк. Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции для студентов кафедры БИТ в МФТИ по big data.

Содержание выпуска
— Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
— Из каких источников в систему приходят сырые данные.
— Куда данные сохраняются и в каком виде.
— Как предварительно обрабатываются и готовятся данные.
— Как отбираются данные для обработки и анализа.
— Как происходит анализ в DS и чем он отличается от традиционной аналитики.
— Какие решения и инструменты существуют для анализа и изучения данных в data science.
— Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
— Чем занимается отдел data science. Какие роли связаны с data science.
— Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
— Насколько data science — это программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
— Какие языки и для каких задач используются.
— Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
— Какие зарплаты, специализации и перспективы в data science.

Полезные ссылки
Apache Spark https://spark.apache.org
Apache Hadoop https://hadoop.apache.org
Язык программирования Scala https://skillboxcode.mave.digital/ep-35
Amazon Simple Storage Service (S3) https://aws.amazon.com/ru/s3
Redis https://ru.wikipedia.org/wiki/Redis
MLflow https://mlflow.org
CI/CD https://ru.wikipedia.org/wiki/CI/CD
Apache Kafka https://kafka.apache.org
Debezium https://debezium.io
Micro Batching https://bit.ly/40gr29I
Витрина данных https://bit.ly/40h0tkO
Слои в data science https://bit.ly/3JuwFes
REST API https://bit.ly/3Jsrrjh
Модель вычислений MapReduce https://ru.wikipedia.org/wiki/MapReduce
Google File System https://ru.wikipedia.org/wiki/Google_File_System
HDFS https://bit.ly/3XVnS9I
Захват изменения данных https://bit.ly/3wIYR5V
Apache NiFi https://ru.wikipedia.org/wiki/Apache_NiFi
Nginx https://ru.wikipedia.org/wiki/Nginx
Apache Airflow https://ru.wikipedia.org/wiki/Apache_Airflow
Dimensional modeling https://en.wikipedia.org/wiki/Dimensional_modeling
Сайт-тренажёр sql-ex.ru
«Книга с кабанчиком» https://habr.com/ru/post/423981
Codewars https://www.codewars.com
LeetCode https://leetcode.com
YouTube-канал «Диджитализируй!» https://bit.ly/3kWYvG0
Марк Лутц. «Изучаем Python»
Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»

Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: code.media@skillbox.ru, t.me/tym83.

Стартовать в программировании вместе со Skillbox: skillbox.ru/code

Наш подкаст удобно слушать на популярных платформах:
Castbox: https://bit.ly/3tZ3eJF
«Яндекс Музыка»: https://bit.ly/3FWQsOk
Apple Podcasts: https://apple.co/3KLXpVZ
Google Podcasts: https://bit.ly/3qFvYUY
Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Категория
Приколы недели
Комментариев нет.