Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Виктория Шейх Халиль Обновлено 
Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Содержание:

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

С. Мальцева, В. Корнилов. НИУ ВШЭ

Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия  Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Как узнать, подходит ли вам профессия «Data Scientist»?
Пройти тест
Тест на профориентацию
Читайте также
Профгид
Профессия «Data Mining Specialist»

Краткое описание

Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.

  • Начни учиться сегодня, оплатишь потом!
    Начни учиться сегодня, оплатишь потом!
    XYZ SCHOOL — лидер в геймдев обучении, скидки до 45%. Уникальное предложение.
  • Курсы SkillBox
    Курсы SkillBox
    Скидка 60% на профессии и 50% на курсы Skillbox по промокоду "prof"

Массивы больших данных подразделяют на 3 вида:

  • структурированные (например, данные кассовых аппаратов в торговле);
  • полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
  • неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).

Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).

  • Курсы SkillBox
    Курсы SkillBox
    Скидка 60% на профессии и 50% на курсы Skillbox по промокоду "prof"
  • Начни учиться сегодня, оплатишь потом!
    Начни учиться сегодня, оплатишь потом!
    XYZ SCHOOL — лидер в геймдев обучении, скидки до 45%. Уникальное предложение.
  • Весенние скидки в ИПО до 40%!
    Весенние скидки в ИПО до 40%!
    Государственный диплом. Рассрочка от института и индивидуальные скидки. Ведется набор студентов.

Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.

Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей. 

Особенности профессии

Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.

Главные задачи Data Scientist´а:

  • извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.

Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.

Что делает Data Scientist

В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:

  1. Выяснить, что нужно заказчику.
  2. Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
  3. Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
  4. Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
  5. Запрограммировать и «натренировать» модель ML.
  6. Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
  7. Внедрить модель в производство/продукт.
  8. Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.

Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.

В работе с данными Data Scientist использует:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • искусственный интеллект для работы с данными;
  • методы проектирования и разработки баз данных.

Разница между Data Scientist и другими Data-специалистами   

С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.

Отличие Data Scientist от Business Analyst  

Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.

Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.

Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.

Отличие Data Scientist от Data Engineer

Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.

Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.  

Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.

Итак, задачи Data-инженера и дата-сайентиста разные:

  • Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
  • Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.

Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.

Плюсы и минусы профессии

Плюсы:

  • Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня. 
  • Высокооплачиваемая профессия.
  • Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
  • Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.  

Минусы:

  • Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
  • При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
  • Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги. 

Место работы

Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:

  • высокотехнологические отрасли производства;
  • наука;
  • IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицина (автоматическая диагностика болезней);
  • финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
  • телекоммуникации;
  • транспорт;
  • крупные торговые сети;
  • сельское хозяйство;
  • страхование;
  • социология.

По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).

Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.

Важные качества

  • Аналитический склад ума.
  • Трудолюбие.
  • Настойчивость.
  • Скрупулёзность, точность, внимательность.
  • Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
  • Коммуникабельность.
  • Умение объяснить сложные вещи простыми словами.
  • Бизнес-интуиция.

Профессиональные знания и навыки

  • Математика, матанализ, математическая статистика, теория вероятностей.
  • Подготовка данных к анализу с использованием библиотек. 
  • Английский язык.
  • Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C++(BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
  • Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
  • Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
  • Законы развития бизнеса.

Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.

Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.

Обучение на Data Scientist´а 

Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:

  • «Прикладная математика и информатика» (01.03.02), профили:
    • «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
    • «Анализ и принятие решений» (НИУ ВШЭ, Москва);
    • «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
    • «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
  • «Прикладная математика» (01.03.04), профили:
    • «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
    • «Анализ данных» (МТУСИ, РТУ МИРЭА);
    • «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
  • «Статистика» (01.03.05), профиль:
    • «Аналитика и управление данными» (РЭУ им. Плеханова).

С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.

Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:

  • Machine Learning 101 – канал ML Youtube;
  • YouTube-курс машинного обучения от «ШАД» Яндекса.
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom.

Курсы


Вузы

Курсы по Data Science

Оплата труда

Профессия Data Scientist одна из самых высокооплачиваемых в ИТ. В США оплата труда дата-сайентиста составляет $110–140 тыс. в год. В России зарплата Data Scientist´ов зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 60 тыс. руб. в Санкт-Петербурге. С опытом работы от 3 лет зарплата повышается до 110–250 тыс. руб. 

Зарплата data scientist на март 2024

Информации о зарплатах предоставлена порталом hh.ru.

Россия 50000—150000₽
Москва 100000—450000₽

Ступеньки карьеры и перспективы

Как и все ИТ-специалисты, Data Scientist проходит карьерные ступени от джуниора до сеньора и тимлида. Каждый этап профессионального роста занимает примерно год-два. Дата-сайентист уровня Middle глубже понимает бизнес-задачи, ему по силам предложить лучшее решение для них. Чем больше опыта и выше карьерный уровень, тем меньше Data Scientist фокусируется на технических задачах: он подходит к проекту глобально и может оценивать его смысловую составляющую.

Профессия Data Scientist сама по себе уже достижение: для работы требуются серьёзные теоретические знания и практический опыт в нескольких ИТ-специальностях. В любой крупной компании или организации дата-сайентист – ключевая фигура. Чтобы достичь таких высот, надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Применение Data Science не ограничивается одной сферой. Можно обучать нейросети для поиска новых электронных частиц или кодов ДНК, а если захочется разнообразия, то перейти в совершенно другую отрасль и создать рекомендательный музыкальный сервис. 

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

Видео: Новая специализация «Большие данные» – Михаил Левин

Читайте также
Профгид
Профессия «Бизнес-аналитик »

Примеры компаний с вакансиями data scientist

  • Team Lead Python Engineer
  • Data scientist
  • Data Engineer / ML Engineer (Middle)
  • Java Developer (Life Science project)
  • Data Scientist (Senior)
  • Data Scientist at Recommender System (remote/relocate)

Материал может содержать рекламу. Информация о рекламодателе по ссылкам в статье.