Data Science является многогранной дисциплиной, но под разными углами просто много не одягнуть. Для того, чтобы охватить знания и большую часть культуры Data Science, довольно часто используется метафора «семь сторон монеты», чтобы показать, что это более широкое направление со множеством направлений.
Во-первых, есть «машинное обучение», нейронные сети и алгоритмы, которые обрабатывают данные и ваши модели. Они используют массивные данные и машинное обучение, чтобы решать нештатные ситуации, автоматизировать распознавание образов и облегчить доступ к информации. Они собирают данные, мониторят сложные проблемы и ищут математические модели, которые помогут их решению. Это играет решающую роль в решении практически каждой проблемы, связанной с данными.
Далее «социальные данные» — задание и организация данных разных типов. Тут могут понадобиться различные специфические технологии, такие как текстовое анализирование, тегирование, метаданные, извлечение данных, паттерн-распознавание и анализ частоты слов. Кроме того, используются инструменты привязки данных, условного моделирования, графовых баз данных и т.д.
Третья сторона это «обработка данных», где данные используют для сбора, обработки, хранения и анализа. Здесь важно различать разные типы данных и виды хранилищ — SQL и NoSQL базы данных, потоковые процессоры, архивы и блокчейн-системы. Без хорошей инфраструктуры и инструментов для обработки данных дальнейший анализ невозможен.
Вторая четвертая сторона состоит из «бизнес-аналитики», возможность изъять правильные выводы из данных и понять, как ваши данные могут влиять на бизнес-решения. Тут нужна бизнес-ориентация и понимание инструментов для анализа, таких как OLTP, OLAP и прогназирования.
Еще одна сторона это «системы поддержки принятия решений», в которых сложные данные преобразуются в простые ответы. Основная цель здесь состоит в применении алгоритмов и моделей для предсказания будущих событий и решения проблем. Вы должны понимать, какие алгоритмы использовать для достижения вашей цели, а также понимать их точность и точность с точки зрения бизнес-результатов.
Очередная сторона — «командное взаимодействие» — это ключевой аспект любого задания. Крайне важно уметь работать со всеми членами команды и знать о различиях в ходе процесса разработки данных. Думайте о целях и проработайте фреймворк для построения хорошего потока работы. Достижение цели невозможно без взаимодействия.
И наконец, последняя сторона — «визуализация данных», построение графиков и карт. Визуализация данных может быть разной и зависит от типа данных и данных для их представления. Например, построить центры гавани, показать график трендов или построить карту кластеров. Они могут быть построены в различных пакетах для визуализации.
Итак, при изучении Data Science мы можем видеть, что понимание различных аспектов дисциплины и их применение к конкретной проблеме на практике — это то, что делает ее такой полезной для многих организаций. Это метафора «семь сторон монеты» дает нам дополнительное понимание того, как работает Data Science как такой и почему очень важно иметь полное представление о разных аспектах, а не отдельных частях, для достижения конечных бизнес-результатов.