Класирах всеки курс за въведение в науката за данни в интернет, базиран на хиляди точки от данни

Преди година отпаднах от една от най-добрите програми за компютърни науки в Канада. Започнах да създавам собствена магистърска програма по наука за данни, използвайки онлайн ресурси. Разбрах, че вместо това мога да науча всичко, което ми трябва, чрез edX, Coursera и Udacity. И бих могъл да го науча по-бързо, по-ефективно и за малка част от цената.

Сега почти приключих. Участвал съм много курсове, свързани с науката за данните, и одитирани части от много други. Знам какви са възможностите и какви умения са необходими на учащите, които се подготвят за ролята на анализатор на данни или учен по данни. Преди няколко месеца започнах да създавам ръководство с преглед, което препоръчва най-добрите курсове за всеки предмет в рамките на науката за данните.

За първото ръководство от поредицата препоръчах няколко класа по кодиране за начинаещия учен по данни. Тогава това беше статистика и класове на вероятност.

Сега към въведенията в науката за данните.

(Не се притеснявайте, ако не сте сигурни какво включва въведение в курса по наука за данни. Ще обясня скоро.)

За това ръководство прекарах 10+ часа, опитвайки се да идентифицирам всяко онлайн въведение в курса по наука за данни, предлагано от януари 2017 г., извличане на ключови части от информацията от техните програми и рецензии и съставяне на техните оценки. За тази задача се обърнах към никой друг освен общността с отворен код Class Central и нейната база данни от хиляди оценки и рецензии за курсове.

От 2011 г. основателят на Class Central Dhawal Shah следи по-отблизо онлайн курсовете, отколкото може би някой друг по света. Dhawal лично ми помогна да събера този списък с ресурси.

Как избрахме курсове за разглеждане

Всеки курс трябва да отговаря на три критерия:

  1. Той трябва да преподава процеса на науката за данните. Повече за това скоро.
  2. Той трябва да се предлага при поискване или да се предлага на всеки няколко месеца.
  3. Това трябва да е интерактивен онлайн курс, така че няма книги или уроци само за четене . Въпреки че това са жизнеспособни начини за учене, това ръководство се фокусира върху курсове.

Вярваме, че сме покрили всеки забележителен курс, който отговаря на горните критерии. Тъй като има привидно стотици курсове за Udemy, ние избрахме да разгледаме само най-преглежданите и най-високо оценените. Винаги има шанс да сме пропуснали нещо. Така че, моля, уведомете ни в раздела за коментари, ако оставихме добър курс.

Как оценихме курсовете

Съставихме среден рейтинг и брой рецензии от Class Central и други сайтове за рецензии, за да изчислим среднопретеглена оценка за всеки курс. Прочетохме текстови рецензии и използвахме тази обратна връзка, за да допълним числените оценки.

Направихме субективни планове за съдебен план въз основа на два фактора:

1. Покритие на процеса на науката за данните. Премахва ли курса или прескача определени предмети? Обхваща ли твърде подробно определени теми? Вижте следващия раздел за това, което включва този процес.

2. Използване на общи инструменти за наука за данни. Курсът преподава ли се с помощта на популярни езици за програмиране като Python и / или R? Те не са необходими, но в повечето случаи са полезни, така че се дава малко предпочитание на тези курсове.

Какъв е процесът на науката за данните?

Какво е наука за данните? Какво прави ученият за данни? Това са типовете фундаментални въпроси, на които трябва да отговори интрото в курса по наука за данни. Следващата инфографика от професорите от Харвард Джо Блицщайн и Ханспетер Пфистер очертава типичен процес на наука за данни , който ще ни помогне да отговорим на тези въпроси.

Нашата цел с това въведение в курса по наука за данни е да се запознаем с процеса на науката за данни. Не искаме прекалено задълбочено отразяване на конкретни аспекти на процеса, оттук и частта „intro to“ от заглавието.

За всеки аспект идеалният курс обяснява ключови концепции в рамките на процеса, въвежда общи инструменти и предоставя няколко примера (за предпочитане практически).

Търсим само въведение. Следователно това ръководство няма да включва пълни специализации или програми като специализация по наука за данни на Coursera в университета Джон Хопкинс или Nanodegree на анализатора на данни на Udacity. Тези компилации от курсове избягват целта на тази серия: да се намерят най-добрите индивидуални курсове за всеки предмет, които да включват обучение по наука за данните. Последните три ръководства в тази поредица от статии ще обхващат подробно всеки аспект от процеса на наука за данни.

Необходимо е основно кодиране, статистика и вероятностен опит

Няколко курса, изброени по-долу, изискват основно програмиране, статистика и опит с вероятности. Това изискване е разбираемо, тъй като новото съдържание е разумно усъвършенствано и че тези теми често имат няколко курса, посветени на тях.

Този опит може да бъде придобит чрез нашите препоръки в първите две статии (програмиране, статистика) в това Ръководство за кариера на Data Science.

Нашият избор за най-доброто въведение в курса по наука за данни е ...

  • Data Science AZ ™: Включени упражнения за наука в реалния живот (Kirill Eremenko / Udemy)

Data Science AZ ™ на Udemy на Кирил Еременко е категоричният победител по отношение на широчината и дълбочината на покритие на процеса по наука за данни на 20+ курса, които се класират. Той има 4,5-звезден среднопретеглен рейтинг над 3 071 отзива, което го поставя сред най-високо оценените и най-преглежданите курсове от разглежданите.

Той очертава пълния процес и предоставя примери от реалния живот. Със съдържание от 21 часа това е добра дължина. Рецензентите обичат доставката на инструктора и организацията на съдържанието. Цената варира в зависимост от отстъпките на Udemy, които са чести, така че може да успеете да закупите достъп само за $ 10.

Въпреки че не поставя отметка в полето „Използване на общи инструменти за наука за данни“ , изборите на инструменти , които не са на Python / R (gretl, Tableau, Excel), се използват ефективно в контекста. Еременко споменава следното, когато обяснява избора на gretl (gretl е статистически софтуерен пакет), въпреки че се отнася за всички инструменти, които използва (акцентът е мой):

В gretl ще можем да правим същото моделиране, точно както в R и Python, но няма да се налага да кодираме. Това е голямата работа тук. Някои от вас може вече да познават R много добре, но някои може изобщо да не го знаят. Целта ми е да ви покажа как да изградите стабилен модел и да ви дам рамка, която можете да приложите във всеки инструмент, който изберете . gretl ще ни помогне да избегнем затъване в нашето кодиране.

Един изтъкнат рецензент отбеляза следното:

Кирил е най-добрият учител, когото съм намерил онлайн. Той използва примери от реалния живот и обяснява често срещани проблеми, така че да разберете по-задълбочено курсовата работа. Той също така дава много прозрение за това какво означава да бъдеш учен по данни, като работиш с недостатъчно данни чак до представянето на твоята работа пред управление на C-класа. Горещо препоръчвам този курс за начинаещи студенти до междинни анализатори на данни!

Страхотно въведение, фокусирано върху Python

  • Въведение в анализ на данни (Udacity)

Въведението на Udacity за анализ на данни е сравнително ново предложение, което е част от популярната Nanodegree на Udacity Data Analyst. Той обхваща процеса на науката за данни ясно и сплотено, използвайки Python, въпреки че липсва малко в аспекта на моделирането. Очакваната времева линия е 36 часа (шест часа седмично в продължение на шест седмици), въпреки че според мен е по-кратка. Той има 5-звездна средно претеглена оценка за две рецензии. Безплатно е.

Видеоклиповете са добре продуцирани, а инструкторът (Caroline Buckey) е ясен и персонализиран. Много програмни викторини налагат концепциите, научени във видеоклиповете. Студентите ще напуснат курса уверени в своите нови и / или подобрени умения за NumPy и Pandas (това са популярни библиотеки на Python). Окончателният проект - който се оценява и преглежда в Nanodegree, но не и в безплатния индивидуален курс - може да бъде приятно допълнение към портфолиото.

Впечатляващо предложение без данни за рецензии

  • Основи на науката за данните (Университет за големи данни)

Основите на науката за данните е поредица от четири курса, предоставена от Университета за големи данни на IBM. Той включва курсове, озаглавени Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools и R 101.

Той обхваща пълния процес на науката за данни и представя Python, R и няколко други инструменти с отворен код. Курсовете имат огромна производствена стойност. Изчисляват се 13–18 часа усилия, в зависимост от това дали сте преминали курса „R 101“ в края, което не е необходимо за целите на това ръководство. За съжаление, той няма данни за рецензии на основните сайтове за рецензии, които използвахме за този анализ, така че все още не можем да ги препоръчаме за горните две опции. Безплатно е.

Състезанието

Нашият избор № 1 имаше средно претеглена оценка 4,5 от 5 звезди над 3068 отзива. Нека разгледаме другите алтернативи, сортирани по низходящ рейтинг. По-долу ще намерите няколко курса, фокусирани върху R, ако сте готови за въведение на този език.

  • Python за наука за данни и Bootcamp за машинно обучение (Jose Portilla / Udemy): Пълно покритие на процеса с фокус, тежък с инструменти (Python). По-малко управлявано от процеса и по-скоро много подробно въведение в Python. Удивителен курс, макар и не идеален за обхвата на това ръководство. Той, подобно на курса на Jose по-долу, може да се удвои както като въвеждане на Python / R, така и като въведение в науката за данни. 21,5 часа съдържание. Той има средно претеглена оценка от 4,7 звезди над 1644 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Наука за данни и машинно обучение Bootcamp с R (Jose Portilla / Udemy): Пълно покритие на процеса с фокусиран усилен инструмент (R). По-малко управлявано от процеса и по-скоро много подробно въведение в R. Удивителен курс, макар и не идеален за обхвата на това ръководство. Подобно на курса на Python на Jose по-горе, той може да се удвои както като въвеждане на Python / R, така и като въведение в науката за данни. 18 часа съдържание. Той има средно претеглена оценка от 4,6 звезди над 847 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Наука за данни и машинно обучение с Python - Ръце! (Франк Кейн / Удеми): Частично покритие на процеса. Фокусира се върху статистиката и машинното обучение. Достойна дължина (девет часа съдържание). Използва Python. Той има 4,5- звездна средно претеглена оценка над 3 104 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Въведение в науката за данни (Data Hawk Tech / Udemy): Пълно покритие на процеса, макар и ограничена дълбочина на покритие. Доста кратко (три часа съдържание). Накратко обхваща както R, така и Python. Той има средно претеглена оценка от 4.4 звезди над 62 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Приложна наука за данни: Въведение (Университет Сиракуза / Отворено образование чрез черна дъска): Пълно покритие на процеса, макар и не равномерно разпространено. Силно се фокусира върху основните статистически данни и R. Твърде приложен и недостатъчен фокус на процеса за целите на това ръководство. Опитът от онлайн курсове се чувства разединен. Той има средно претеглена оценка от 4,33 звезди над 6 отзива. Безплатно.
  • Въведение в науката за данните (Nina Zumel & John Mount / Udemy): Само частично покритие на процеса, макар и добра дълбочина в аспектите на подготовката на данните и моделирането. Дължина (шест часа съдържание). Използва R. Той има среднопретеглена оценка с 4.3 звезди над 101 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Приложна наука за данни с Python (V2 Maestros / Udemy): Пълно покритие на процеса с добра дълбочина на покритие за всеки аспект на процеса. Достойна дължина (8,5 часа съдържание). Използва Python. Той има среднопретеглена оценка с 4.3 звезди над 92 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Искате ли да сте учен по данни? (V2 Maestros / Udemy): Пълно покритие на процеса, макар и ограничена дълбочина на покритие. Доста кратко (3 часа съдържание). Ограничено покритие на инструмента. Той има среднопретеглена оценка с 4.3 звезди над 790 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Данни за проникване: Въведение в анализа на данните (Университет в Окланд / FutureLearn): Широчината на покритие е неясна. Претенциите са съсредоточени върху проучването, откриването и визуализацията на данни. Не се предлага при поискване. 24 часа съдържание (три часа седмично в продължение на осем седмици). Той има среднопретеглена оценка с 4 звезди над 2 отзива. Безплатно с платен сертификат на разположение.
  • Data Science Orientation (Microsoft / edX): Частично покритие на процеса (липсва аспект на моделиране). Използва Excel, което има смисъл, тъй като е курс с марка Microsoft. 12–24 часа съдържание (два-четири часа седмично в продължение на шест седмици). Той има средно претеглена оценка от 3,95 звезди над 40 отзива. Безплатно с проверен сертификат на разположение за $ 25.
  • Data Science Essentials (Microsoft / edX): Пълно покритие на процеса с добра дълбочина на покритие за всеки аспект. Обхваща R, Python и Azure ML (платформа за машинно обучение на Microsoft). Няколко 1-звездни рецензии, цитиращи избора на инструмент (Azure ML) и лошата доставка на инструктора. 18–24 часа съдържание (три-четири часа седмично в продължение на шест седмици). Той има средно претеглена оценка от 3,81 звезди над 67 отзива. Безплатно с проверен сертификат на разположение за $ 49.
  • Приложна наука за данни с R (V2 Maestros / Udemy): R спътникът на курса по Python на V2 Maestros по-горе. Пълно покритие на процеса с добра дълбочина на покритие за всеки аспект на процеса. Достойна дължина (11 часа съдържание). Използва R. Той има средно претеглена оценка от 3,8 звезди над 212 отзива. Цената варира в зависимост от отстъпките на Udemy, които са чести.
  • Въведение в науката за данни (Udacity): Частично покритие на процеса, макар и добра дълбочина за разглежданите теми. Липсва изследователският аспект, въпреки че Udacity има чудесен пълен курс за анализ на изследователски данни (EDA). Твърди, че е с дължина 48 часа (шест часа седмично в продължение на осем седмици), но според мен е по-кратък. Някои отзиви смятат, че липсва настройка за разширено съдържание. Чувства се дезорганизиран. Използва Python. Той има средно претеглена оценка от 3,61 звезди над 18 отзива. Безплатно.
  • Въведение в науката за данни в Python (Университет на Мичиган / Coursera): Частично покритие на процеса. Няма моделиране и визуализация, въпреки че курсове №2 и №3 по Приложна наука за данни със специализация на Python обхващат тези аспекти. Участието в трите курса би било твърде задълбочено за целите на тези ръководства. Използва Python. Четири седмици. Той има средно претеглена оценка от 3,6 звезди над 15 отзива. Налични безплатни и платени опции.
  • Вземане на решения, управлявани от данни (PwC / Coursera): Частично покритие (липсва моделиране) с бизнес фокус. Представя много инструменти, включително R, Python, Excel, SAS и Tableau. Четири седмици. Той има 3,5- звездна среднопретеглена оценка над 2 отзива. Налични безплатни и платени опции.
  • Crash курс по наука за данни (Университет Джон Хопкинс / Coursera): Изключително кратък преглед на пълния процес. Твърде кратко за целите на тази поредица. Два часа дължина. Той има 3,4- звездна среднопретеглена оценка над 19 отзива. Налични безплатни и платени опции.
  • Инструментарият на Data Scientist (Университет Джонс Хопкинс / Coursera): Изключително кратък преглед на пълния процес. Още за подготовка за специализация по наука за данни на Университета Джон Хопкинс. Твърди, че съдържа 4-16 часа съдържание (един-четири часа седмично в продължение на четири седмици), въпреки че един рецензент отбеляза, че може да бъде завършен за два часа. Той има 3,22- звездна среднопретеглена оценка над 182 отзива. Налични безплатни и платени опции.
  • Управление на данните и визуализация (Университет Уеслиан / Coursera): Частично покритие на процеса (липсва моделиране). Четири седмици. Добра производствена стойност. Използва Python и SAS. Той има средно претеглена оценка от 2,67 звезди над 6 отзива. Налични безплатни и платени опции.

Следните курсове нямаха рецензии към януари 2017 г.

  • CS109 Data Science (Харвардски университет): Пълно покритие на процеса с голяма дълбочина (вероятно твърде задълбочено за целите на тази поредица). Пълен 12-седмичен бакалавърски курс. Навигацията на курса е трудна, тъй като курсът не е предназначен за онлайн потребление. Действителни лекции в Харвард са заснети. Горната инфографика за процеса на наука за данни произхожда от този курс. Използва Python. Няма данни за преглед. Безплатно.
  • Въведение в Data Analytics за бизнеса (University of Colorado Boulder / Coursera): Частично покритие на процеса (липсват аспекти на моделиране и визуализация) с фокус върху бизнеса. Процесът на науката за данните е маскиран като „Информационно-действаща стойностна верига“ в техните лекции. Четири седмици. Описва няколко инструмента, макар че обхваща само SQL в някаква дълбочина. Няма данни за преглед. Налични безплатни и платени опции.
  • Въведение в Data Science (Lynda): Пълно покритие на процеса, макар и ограничена дълбочина на покритие. Доста кратко (три часа съдържание). Въвежда както R, така и Python. Няма данни за преглед. Цената зависи от абонамента за Lynda.

Опаковане

Това е третата от поредицата от шест части, която обхваща най-добрите онлайн курсове за стартиране в областта на науката за данни. Ние разгледахме програмирането в първата статия и статистиката и вероятността във втората статия. Останалата част от поредицата ще обхване други основни компетенции в областта на науката за данни: визуализация на данните и машинно обучение.

Ако искате да научите Data Science, започнете с един от тези класове по програмиране

Ако искате да научите Data Science, вземете няколко от тези класове със статистика

Последното парче ще бъде резюме на тези статии, плюс най-добрите онлайн курсове за други ключови теми, като преборване на данни, бази данни и дори софтуерно инженерство.

Ако търсите пълен списък на онлайн курсовете по Data Science, можете да ги намерите на тематичната страница на Data Central и Big Data на Class Central.

Ако ви е харесало да четете това, разгледайте някои от другите парчета на Class Central:

Ето 250 курса на Ivy League, които можете да вземете онлайн в момента безплатно

250 MOOC от Браун, Колумбия, Корнел, Дартмут, Харвард, Пен, Принстън и Йейл.

50-те най-добри безплатни онлайн университетски курса според данните

Когато стартирах Class Central през ноември 2011 г., имаше около 18-ина безплатни онлайн курса и почти всички ...

Ако имате предложения за курсове, които съм пропуснал, уведомете ме в отговорите!

Ако сметнете това за полезно, щракнете върху? така че повече хора ще го видят тук в Medium.

Това е съкратена версия на оригиналната ми статия, публикувана в Class Central, където съм включил допълнителни описания на курсовете, учебни програми и множество рецензии.