Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class)

Habrahabr

В последнее время все чаще натыкаюсь на упоминание о «Data Science» или по-нашему «Наука о данных». Не являюсь специалистом в области IT и на протяжении всей жизни не дружу с мат. анализом и статистикой, поэтому я достаточно долго проходил мимо этого вопроса и наверное, продолжал бы проходить стороной, но в какой-то момент любопытство взяло верх.

Итак Cognitive Class он же Big Data University от IBM (иногда сокращенно BDU) – портал с бесплатными курсами по тематике близкой к BIG Data и соответственно Data Science.

Хотите узнать, чему он может или не может Вас научить, тогда милости прошу под кат.

Чтобы у Вас было понимание какими глазами я смотрел на этот курс пара тезисов обо мне:

  1. Не дружу с мат. анализом и статистикой;
  2. Немного умею кодить (писать «быдло код» и как-то работающие «програмки»);
  3. Худо-бедно понимаю английский. Письменно — терпимо, на слух — плохо.
  4. Ранее сталкивался с on-line обучением.
  5. На момент регистрации в Cognitive Class, о Data Science не знал вообще ничего.

Надеюсь, что вы не зря прочитали мою краткую биографию и она все же пригодится.

Будем исходить из того, что люди с разным «бэкграундом» будут смотреть на этот курс по-разному, поэтому не претендуя на объективность, начну:

Часть 1. Почему Cognitive Class?

По нелепой случайности, я глубоко убежден, что наверняка есть много другого качественного и полезного материала по данной теме, просто это была одна из ссылок и я по ней перешел.

Надо заметить, что в русскоязычном Интернет пространстве ни под новым брендом (Cognitive Class) ни под старым (Big Data University) портал особо не «светится». Скорее всего главная причина – он не переведен на русский язык.

Тем не менее, то что все материалы бесплатные, большая часть курсов базируется на open-source ПО, а по окончании выдают какие-то сертификаты и «бейджи»(о них позже), в сочетании с любопытством сделали свое дело. Ну и как плюс можно потренировать английский.

Часть 2. Batman Data Science: Начало

На сайте после регистрации открывается доступ к множеству курсов. Все курсы, что мне попадались можно было начинать в любой момент, ограничений по времени не было, взаимодействие с преподавателями или студентами тоже не требовалось.

Каждый курс можно пройти по отдельности, а можно в составе учебной программы (learning path). За прохождение каждого учебного курса выдается электронный сертификат, за выполнение требований учебной программы — бейдж

Интерфейс сайта напоминает любую другую систему дистанционного обучения, так что думаю сам процесс не должен вызывать проблем у опытных пользователей.

Поскольку о Data Science на момент регистрации я не знал вообще ничего, сам бог велел начать с программы обучения Data Science Fundamentals, в принципе это же мне подтвердил местный «Скайнет». На сайте есть бот (Student Advisor), если ему написать: «Data Science», то он как раз присоветует эту учебную программу. Для каких-либо более сложных и душевных бесед бот не подходит, потому что он понимает похоже только ключевые слова из тем курсов.

Приступим. На странице учебной программы, видно, что она состоит из нескольких курсов, ранжированных в рекомендуемом порядке прохождения (хотя никто не запрещает проходить в любом порядке).

При этом, для получения бейджика первой степени, как правило необходимо освоить самый первый курс учебной программы, для получения бейджика второй степени необходимо, как правило пройти все курсы программы. Рассмотрим её подробней.

Часть 3. Data Science Fundamentals

Программа состоит из следующих курсов в рекомендуемом порядке прохождения

  • Data Science 101 (первый бейдж)
  • Data Science Methodology
  • Data Science Hands-on with Open Source Tools
  • R 101

По окончанию всех — второй бейдж

Кратко о концепции «среднестатистического курса» на платформе.

Каждый курс из тех что мне попался обладает следующими свойствами:

Основной материал разбит на модули (похоже их всегда 5)

Есть вспомогательные разделы типа введения, экзамена, отзывов.

В каждом из учебных модулей, как правило есть одно видео (чаще больше) и почти всегда набор тестовых вопросов по пройденному материалу, также обычно есть лабораторные и иногда попадаются статьи.

Схема оценки обычно 50%/50%. Первая половина за итоговые тесты модулей, вторая за итоговый экзамен. Порог прохождения обычно 70%. В некоторых курсах значения могут меняться, не поленитесь заглянуть в раздел Grading Scheme.

Смотреть все видео или выполнять все лабораторные не обязательно, главное, чтобы вы сдали все тесты и сдали финальный экзамен.

Сами по себе тесты довольно простые, на любые вопросы, кроме тех, где надо ткнуть true/false дается 2 попытки без штрафа (в true/false – как у сапера нет права на ошибку). Обычно в конце модуля 3-4 вопроса, большинство из них с одним вариантом ответа из 3-5 значений, иногда попадаются вопросы с галочкой, иногда с полем для ввода, вопросы обычно по материалу и простые до ужаса. Время на сдачу теста не ограничено, «тыкать» в ответы можно в любой момент.

Экзамен в отличии от тестов надо сдать ровно за 60 минут (но можно и раньше), в остальном похож на тесты, только вопросов побольше (10-20).

По окончании каждого курса дадут сертификат и если предусмотрено бейдж (о них ближе к концу)

Давайте кратко разберем каждый курс программы, ну и я поделюсь впечатлениями о нем:

Data Science 101 – Полезный, воодушевляющий курс, чем-то напоминает курсы «Как стать программистом за 2 часа от известных школ программирования». В первом же видео, почтенный ученый из Канады, и молодые ребята расскажут Вам, кто такой Data Scientist и с чем его едят.

Еще раз напомню, что все курсы что мне попались были только на английском, но в большинстве случаев говорят понятно и субтитры есть (хотя есть и исключения)

После просмотра всех видео в модуле по идее должна быть лабораторная, но в этом курсе ее по сути нет, вместо нее в модулях будет 1 страничка из книги, в тестах к модулю как раз будут вопросы из этой странички, вопросы простые, достаточно просто пробежать глазами текст.

Собственно, финальный экзамен, тоже не блещет сложностью и по сути является проверкой знаний по чудо-книге из лабораторных.

С другой стороны, это же вводный курс, не будем хотеть от него чудес.

По окончанию курса вы в лучшем случае поймете, зачем вообще нужно было выдумывать этот Data Science. Практических навыков не дадут никаких.

Но зато вы получите бейдж который с гордостью подтвердит то что вы: «This badge earner has an understanding of the possibilities and opportunities that data science, analytics and big data bring to new applications in any industry.» Ценность его примерно, такая же как у «зайчиков», которые вместо оценок в моем детстве ставили в тетрадку первоклассникам

О других буду писать еще более сжато:

Data Science Methodology – Для меня этот курс как ни странно оказался сложным, причем в первую очередь из-за языкового барьера, если специфика английского для IT, глазу привычна, то более научная специфика языка, вызывала затруднения. Сам по себе курс реальной практики по сути не дает, но описывает основные концепции, рассказывает, как примерно должен думать Data Scientist (буду называть его так, потому что «ученый по данным» как-то не так круто звучит)

В отличии от прошлого курса, в этом уже есть некоторое подобие лабораторных, вы будете скачивать pdf тетрадку и если захотите, то даже отвечать на поставленные там вопросы (что не обязательно). Пару лабораторных вы сделать не сможете, потому что «пока не умете», авторы предлагают вам если захотите вернуться к ним позже (я не захотел).

Data Science Hands-on with Open Source Tools – Было бы странно если бы IBM в рамках своих курсов не продвигало бы свои разработки, данный курс познакомит вас с их инструментарием datascientistworkbench.com. Штука бесплатная, висит в облаке, один минус модули не очень быстро инициализируются. В рамках курса Вас научат пользоваться по всей видимости основными open-source инструментами, которые применяются для обработки данных (а может и нет, я профан в этом вопросе, поэтому буду верить IBM). Помимо вводной части основной упор будет сделан на следующие приложения: Jupyter Notebooks, Zeppelin Notebooks, RStudio IDE, Seahorse. Еще раз повторюсь все висит в облаке ставить ничего не надо.

В отличии от прошлых курсов, этот хоть уже предлагает небольшую практику, в рамках лабораторных, можно будет хоть чуть-чуть побаловаться инструментами, но уровень задач — для совсем начинающих. В принципе надо будет, просто посмотреть, как всё работает.

R 101 – тут мы подробней изучим основы языка R и их версию RStudio. Лабораторные уже приобретают хоть какой-то смысл, местами даже надо будет, чуть-чуть подправить их код, чтобы получить нужные для ответов в тестах цифры (если память меня не подвела). Но опять курс – для совсем новичков, чуть сложнее чем «Hello world», так что не питайте иллюзий программировать на R вы тут вряд ли так сразу научитесь.

Итак, по завершении всех курсов вы получает сертификаты и обещанный бейдж и тут у вас могут возникнуть проблемы.

Часть 4. Сертификаты, бейджи и проблемы с закрытием курса.

Не то что бы бесплатный сыр был только в мышеловке, но дареному коню мы явно в зубы смотреть не будем.

Я думаю внимательный читатель уже догадался, что ценность сертификатов и бейджев стремится к нулю.

Сертификат он такой же, как и везде, можно им по ссылке поделиться, можно распечатать и в рамочку вставить.

Подавляющее большинство сертификатов и бейджев не требует верификации, а значит получить их может кто угодно.

Теперь про бейджи. Бейджи размещаются на сайте партнере https://www.youracclaim.com. (придется создавать еще 1 профиль), там вы можете в публичный доступ выставить все свои достижения и потом делиться ссылкой на профиль сразу со всеми, например в соц. сетях или резюме.

Проблемы. Представьте вы мужественно прошли все курсы на вторую ступеньку, получили все сертификаты, а бейджик вам не дали. Не расстраивайтесь если он вам очень нужен можете устроится в ритейл :). Будем считать, что зачеркнутый путь нам не подходит и начнем разбираться в чем же дело.

Если бейджа нет, первое на что стоит обратить внимание так это на вкладку Progress. Программа выдаст Вам сертификат, как только вы перевалите за пороговую планку (обычно 70%), а вот с бейджем сложнее. Обязательно убедитесь, что вы ответили на все вопросы в тестах (нажали Final Check там, где требуют). Если будет хоть 1 незачтенный вопрос в одном из курсов, учебную программу вам до конца не закроют.

Итак, вы пробежались по вкладе «прогресс» у всех курсов и убедились, что везде написано «ноу проблем», а бейджа все равно нет. Дальше начинается шаманизм, рекомендую открыть каждый курс еще раз и нажать на кнопку «Courseware». Если текст отличается по смыслу от:

«You were most recently in Get your completion certificate and badge. If you're done with that, choose another section on the left»

или от:

«You were most recently in Download your completion certificate. If you're done with that, choose another section on the left»,

то есть смысл перейти в те пункты куда он советует. Обязательно рекомендую запрашивать сертификат именно внизу вкладки «прогресс» по ссылке типа «Download your completion certificate» и там во все потыкать, заметил, что когда запрашиваешь сертификат на вкладке прогресс сверху он возможно не фиксирует тот факт, что обучение совсем закончилось.

Итак, мы разобрали стартовую учебную программу по Data science на площадке Cognitive class, для тех, кто уже устал от большого текста предлагаю перейти к заключению в конце статьи, для остальных бонус — краткое описание еще нескольких курсов.

Часть 5. Датый «Data» рыцарь или еще немного о Data Science

Поскольку первая учебная программа была пройдена за день, а особых знаний не прибавилось, логично было продвинуться дальше, тем более сами разработчики учебных программ советуют перейти к Data Science for Business, ну и еще я решил посмотреть в сторону курса Statistics 101, с него и начну.

Statistics 101 – Похоже к этому курсу ребята «сдулись», потому, что после определенного момента к видео не сделали субтитры, конечно есть автоматический перевод Youtube, но по мне это не очень удобно. С моим плохим английским курс кажется сложным, по крайней мере если вам раньше в ВУЗе не давалась статистика, сложно ожидать, что вот на «басурманском» языке к вам придет озарение. И тем не менее курс несложный и что-то полезное сообщает (средне квадратичное отклонение, медиана, дисперсия и т.д.). Может быть есть смысл посмотреть его перед курсами по Data Science, а может и нет, вам решать.

Важно отметить, что для этого курса надо регистрироваться качать триал версию программы SPSS Statistics. Триал всего 14 дней, так что хоть формально время курса и не ограничено, лучше совсем не затягивать. Программа сама по себе дорогая, а курс завязан во многом на нее, поэтому в конечном счете курс мне не понравился =)

Data Science for Business

Состоит из:

  1. Data Privacy Fundamentals
  2. Digital Analytics & Regression
  3. Predictive Modeling Fundamentals

К первым двум курсам нет субтитров для видео (вроде).

Кратко про каждый:

Data Privacy Fundamentals – курс на примере канадского законодательства говорит о том, как важно соблюдать информационную безопасность. Кроме текста и видео в курсе будет одно упражнение, где нам с помощью заготовок на R, подскажут как легко взломать ненадежные пароли. Ну а на экзамене придется «хакнуть» пароль для бедолаги Джастина (можно не «хакать», а просто «включить голову»)

Digital Analytics & Regression – курс наконец-то дает хоть немножечко адекватной практики и демонстрации анализа «небольших» данных на R. Не абы что, но все же полезно.

Predictive Modeling Fundamentals I – ужасный курс, на видео мужик часто шипит в микрофон и говорит так как будто у него во рту … леденец, причем не знаю глюк или нет, но на youtube видео не выложено, а в плеере на сайте нельзя включить субтитры так, чтобы они вылезали как нормальные субтитры (получается только сбоку) в итоге просмотр видео превращается в пытку.

Курс заточен под еще одно творенье от IBM — SPSS Modeler, так что надо опять скачивать триал (в этот раз на 30 дней)

В отличии от прошлых курсов материал к лабораторным нормально не подготовлен и если где-то ошибся, то решение надо искать самому, сверится не с чем, контрольного файла нет.

В рамках курса разбирают задачку про Титаник (как я понял тема, избитая до жути)

Я его до конца не осилил, после второго модуля сдался, просто бегло просмотрел видео, в трудных местах залез в Википедию, ответил на тесты + экзамен и успешно сдал этот курс (что еще раз говорит о низкой ценности сертификатов).

Заключение:

Предполагая, что в момент «развилки» не все прочитали часть 5, поэтому поделю свои впечатления на две части.

Пройдена только Data Science Fundamentals:

Ну в целом достаточно, для того, чтобы в самых общих чертах понять, что такое Data Science. Подготовки никакой не требуется, ни мат. анализом ни статистикой, ни программированием можно не владеть, главное «шпрейхать по-аглицки».

Думаю, итак очевидно, что за один день вы ничего толком не выучите и на 1500000 млн. рублей зарплату рассчитывать не стоит (я надеюсь вы еще не успели открыть «Хантер» и создать резюме?)

По идее этот курс должен развить у вас интерес к предмету и не напугать, в принципе разработчикам это удалось.

Пройдена Data Science Fundamentals + Data Science for Business + Statistics 101:

Рушит все надежды, потому что по-настоящему толковая практика так и не попалась, а курсы Data Science for Business + Statistics 101 выполнены несколько хуже по качеству чем Data Science Fundamentals, да еще и требуют установки триал версий программ от IBM.

Примеры в задачках не абы какие и оторваны во многом от реальности.

Наверное, пройдя все это, вы возможно, сдлаете для себя вывод — Data Science это ваше или нет, было ли вам до ужаса скучно или вы в восторге от колдовства над данными.

Подводя итог: Представленные курсы по пользе напоминают ситуацию, как если бы вас не умеющего водить машину, посадили бы за руль нормального автомобиля с автоматической коробкой передач, показали бы вам где газ и тормоз, как заводить машину и заливать бензин, как включить фары и дворники, ну и в конце под контролем дали бы проехать пару километров по проселочной дороге. С одной стороны водителем вы точно после этого не станете, с другой стороны если вы будете спасаться от маньяка с бензопилой возможно эти знания сохранят вашу жизнь. Ровно также и с этими курсами.

В любом случае, всем кто потратил время на обучение по программе от Cognitive class, советую не останавливаться на достигнутом. В конце концов даже у них там еще много чего интересного (Big Data, Hadoop, Scala и т.п.)

Если коллеги в комментариях порекомендуют, по-настоящему годные бесплатные ресурсы размещу их в обновлении к статье.

Спасибо за внимание, всем удачной недели!