Как да изградим страхотно портфолио за наука за данни

Ако в раздела за умения във вашето автобиография са изброени Python, R, SQL, машинно обучение, дълбоко обучение и се чудите защо всеки път ви отказват, продължете да четете.

Милиони хора търсят работа в науката за данни и възможностите са ограничени. И така, важният въпрос е как можете да се отделите от опаковката?

Ръководството се опитва да улови всичко, от което се нуждаете, за да изградите портфолио от кикас - толкова добро, че не могат да ви пренебрегнат!

Защо трябва да изградите портфолио?

За някой, който е получил магистърска или докторска степен. от колеж от най-високо ниво, намирането на работа може да не е толкова трудно. Институтът добавя достоверност към вашия профил, който работодателите търсят.

За някой, който няма съответна степен или достатъчно опит, това доверие трябва да бъде установено чрез звездно портфолио, показващо вашия потенциал. След това портфолиото служи като доказателство за вашите компетенции.

Има многобройни фактори, които могат да увеличат шансовете ви да бъдете забелязани от работодател. С интелигентна стратегия и последователни усилия ще можете да я пробиете.

Нека да изградим глупав план точно тук, за да работим за намиране на работа!

Стъпка 1 - Идентифицирайте се

Прескачането от един кариерен портал на друг и кандидатстването за работа, в която се споменава „Данни“, не е умен ход. Това би добавило към вашия стрес и натоварване само за да научите, че те са ви отхвърлили.

Намалете търсенето си

Изображение за публикация

Спектърът на Data Science сам по себе си е огромен. Повечето хора лежат в един от слоевете на пирамидата, показана на диаграмата. Само няколко могат да овладеят два или три от слоевете.

Днес управлявана от данни организация работи на различни длъжности и ето списък с нивото на трудност на проблемите, които тези професионалисти решават:

  • Анализатори на данни - лесно до средно
  • Data Engineers - от средно до трудно
  • ML инженери - средни
  • Изследователи / Изследователи на данни - трудно
  • AI инженери / практикуващи дълбоко обучение - много трудно

Очевидно никой човек не може да изпълни всички задачи. Първото нещо, което трябва да направите, е да определите наборите от умения, които сте усвоили (или искате да овладеете). Въз основа на този набор от умения, трябва да включите в списъка длъжността, към която ще се стремите.

Стъпка 2 - Изучаване на длъжностното описание

Ако прекарате достатъчно време, преглеждайки куп описания на длъжности в различни профили на данни, ще забележите, че те искат опит, дори ако е за някой, който е излязъл от колеж.

Второто нещо, което трябва да разберете, е, че има работни места, които имат по-общи изисквания като анализ на данни. И тогава има по-фокусирани и специализирани области на изследване като учен в хедж фонд, който е много тежък по математика.

Ето няколко екранни снимки, които съм заснел от няколко големи (Facebook, NetFlix) и средни организации (h20.ai), които търсят в един кандидат:

Изображение за публикация

Изучаването им ни връща към много важния и често задаван въпрос:

Как мога да компенсирам фактора опит, ако съм излязъл от училище ?

Отговорът е проекти!

Изчакайте! Вече знаех, че ...

Ето това, което вероятно не сте знаели - тези проекти не могат да бъдат ваш анализ върху набора от данни на MNIST или решаване на проблема с класификацията на набора от данни на Titanic.

И така, какви проекти? Откъде да взема тези проекти? Какво трябва да направя?

За да отговорим на това, нека се потопим в изграждането на вашето портфолио.

Стъпка 3 - Показване на опит чрез проекти

Проектите са единственият заместител на опита ви.

На въпрос за това какво хората трябва да имат в портфолиото си, когато търсят първата си работа в интервю за Datacamp, Крис Албън каза:

... когато някой кандидатства, някои от най-добрите неща, с които могат да кандидатстват, са проекти, които са направили, или нещо като, да речем, обучителен лагер или може би тяхното дисертационно изследване или нещо подобно, където можем да погледнем и кажете, ох, страхотно, сякаш сте направили някои интересни неща, работили сте с някои данни, някои интересни начини.

Какво трябва да отразяват тези проекти:

Има четири основни фактора, които вашите проекти трябва да валидират, независимо за кой профил кандидатствате:

  1. Вашата твърда власт над необходимите компетенции
  2. Най сложността на проблема, че сте решили или учи - това може да бъде или роман проблем или често задавани проблем корпоративно ниво.
  3. Експертиза на домейн - количеството изследвания, които сте направили, за да намерите отговорите на въпросите или да изградите инфраструктура за данни.
  4. Вашата воля да преминете тази допълнителна миля и да накарате проекта да се открои - Разгръщане на вашия проект за обществено ползване или писане на блог или публикуване на видео, за да обясни вашите констатации.

Видове проекти, които да добавите към портфолиото си

Имайки предвид гореспоменатите фактори, ето списък с идеи за проекти, които ще изискват искрени усилия, но ще добавят тежест към вашето портфолио.

  • Работа с реални данни: Ако можете да покажете на някого, че можете да работите със сурови данни, идващи от различни източници, и да отговорите на интересни въпроси относно социалните закони, финансите, здравеопазването или какъвто и да е научен експеримент, това би било високо ценено.
  • Проучване р ublicly наличните масиви от данни:
Изображение за публикация

Използвайки публично достъпни набори от данни, изследвайте данните за няколко прозрения, дефинирайте въпроси, които никога преди не са били задавани, ровете в списания и изследователски статии, за да търсите свързани материали и след това разкривайте скрити модели, използвайки статистически модели.

Задълбоченият анализ на публично достъпен набор от данни отново е добро начало.

  • Използвайте своето любопитство: Като любопитен специалист по данни, трябва да има продукти / услуги / въпроси, които са ви интригуващи. Използвайте това любопитство, за да се впуснете в нови проблеми. Например, спортен фанатик може да се заеме с изграждането на табло или инфраструктура за данни, която управлява статистиката и моделите на изпълнение на всички играчи.
  • Принос към пакетите с отворен код : Всяка организация има висок принос за приноса с отворен код за пакети за машинно обучение или научни изчисления. Разработването на безплатен софтуер и софтуер с отворен код значително увеличава шансовете ви да бъдете назначени. Можете да опитате да допринесете за пакети като sklearn, numpy и pandas. Това показва, че можете да работите с огромни и сложни кодови бази и че познавате добре своите неща.
  • Изграждане на проекти от край до край: Чудесен начин да докажете, че наистина сте специалист по общ план, е да изградите проекти от край до край (по-скоро като продукти). Не спирайте да намерите решението или да създадете прототип за система за препоръки или финтех чат бот. Преминете допълнително, внедрете го, споделете го с връстниците си, за да го използвате, съберете някои анализи Това показва колко сте запалени по това, което правите и до каква степен можете да отидете, за да научите нови технологии и методи.
  • Проекти, специфични за умения: Има хора, които са наистина добри в почистването на данни или създаването на прозорливи парцели или автоматизирането на конвейери за данни. Трябва да обмислите разработването на свои собствени пакети на Python, които биха могли да автоматизират тези задачи за почистване или с дадена рамка с данни, пакетът трябва да създаде двойни графики и всички други възможности за ускоряване на процеса на EDA.

Списък на някои наистина страхотни портфолио за вдъхновение:

  • //nycdatascience.com/blog/student-works/improving-a-music-websites-user-experience/
  • //varianceexplained.org/r/trump-tweets/
  • //nycdatascience.com/blog/student-works/forecasting-cryptocurrencies-price-trends/
  • //nycdatascience.com/blog/student-works/web-scraping/covid19s-impact-on-preventable-cancer-risk-in-women-a-call-for-action/

Хронология на проекта

Времето, което отделяте за даден проект, дава улики за сложността, нишата и обема на работата, която изисква. Би трябвало да ви помогне да обосновете дали проектът е достоен за портфолио или не.

Колко усилия полагате в проекта си, за да го изведете на следващото ниво, зависи от много различни фактори.

Само за да ви даде нещо количествено, ако сте подбрали зараждаща се технология, с която да работите, трябва да прекарате поне месец в изграждането на нещо конкретно.

Как да добавите тези проекти към портфолиото си

След като имате няколко добри проекта, които можете да включите в портфолиото си, следващата стъпка е да опаковате работата си по възможно най-добрия начин.

Apple е известна със своите опаковки и дизайн. Бъдете искрени за това как опаковате работата си, преди да я покажете.

Ето как можете да добавите повече тежест към вашите проекти:

  • URL адрес на GitHub: Ако решите да добавите връзка към вашето репо, уверете се, че репото просто не съдържа бележник на Jupyter, той трябва да има всички други файлове катоrequirements.txt,.gitignoreлиценз, ако е необходимо и т.н. По този начин ще бъдете наети като пълен пакет, а не само като експерт по тетрадки на Jupyter.
  • Блогове: Писането за постигнатото винаги е добра практика, а за работодателите изгражда доверието в работата ви и способността ви да комуникирате ефективно това, което сте направили.
  • Разгърнати приложения: Ако сте внедрили вашето приложение, задвижвано с ML, предоставете връзката на работодателя да си поиграе с него.
  • Табла за управление: Ако се гордеете с вашия анализ, можете да създадете табло за управление от него. Можете да използвате Voila или Dash, ако работите в Python. Ако сте експерт по бизнес анализ, можете да добавите своя Power BI или Tableauтабло за управлениепокажете своите аналитични умения.

Стъпка 4 - Профили в социалните медии

Добрият профил в социалните медии може да ви помогне да започнете следващата си мечтана работа. GitHub, LinkedIn, Twitter, Kaggle, StackOverflow и Medium са основните платформи, които хората използват, за да споделят работата си, настроенията, мрежата, консумират информация и рекламират.

Организациите и рекрутерите използват тези платформи, за да достигнат до следващия си потенциален наем.

  • GitHub: Наличието на добър GitHub профил с много приноси или звезди във вашите хранилища ви прави конкурентен програмист.
Изображение за публикация
  • Kaggle: Участието в състезания на Kaggle, създаването на полезни тетрадки и набори от данни също може да ви помогне да изградите добър профил на анализатор на данни.
Изображение за публикация

В откъс от публикацията на Решама Шайк „Да се ​​разминеш или не“ се казва:

Вярно е, че провеждането на едно състезание на Kaggle не квалифицира някого за учен по данни. Нито посещаването на един клас, нито посещаването на един урок на конференцията, нито анализирането на един набор от данни, нито четенето на една книга по наука за данни. Работата върху конкуренция (и) добавя към вашия опит и увеличава портфолиото ви. Това е допълнение към вашите други проекти, а не единственият лакмус тест на нечия наука за данни.
  • LinkedIn: Аз лично използвах LinkedIn, за да намеря първата си работа, първия си клиент и много сътрудници. Това е универсална платформа за свързване с хора, които работят във компаниите, за които мечтаете, взаимодействат с тях, намират работа и следват интересни постижения. Прочетете това пълно ръководство за LinkedIn Profile за научни данни, за да оптимизирате профила си.

    Съвет: Трябва да сте готови да предложите нещо първо, преди да поискате услуга.

  • Twitter: Всички големи имена в областта на науката за данни използват Twitter доста често и вие можете да взаимодействате с хора във вашата област. Научавате за това, върху което работят тези хора, и за техните настроения по социални въпроси.

    Можете да популяризирате вашите блогове, видеоклипове и други открития с вашия Twitter. Хората имат предложения за работа, покани за конференции, работа на свободна практика и маркетингови договори за влиянието си за своята работа и добро последователство в Twitter.

Топ изследователи на данни, които да следят в Twitter:

  • Андреас Мюлер - Sci-kit Learn Developer
  • Ян ЛеКън - главен учен за изкуствения интелект във Facebook
  • Дийн Абът - главен изследовател на данни SmarterHQ
  • Андрю Нг - съосновател на Coursera

Има много други, можете да разгледате моя профил и хората, които следя в моя профил в Twitter.

Стъпка 5 - Кондензиране на портфолио в автобиография на една страница

Най-важният елемент от вашата кандидатура за работа е автобиографията ви, тъй като тя решава дали ще бъдете в списъка за работа или не.

Като се има предвид, че имате всички други елементи в добра форма, е време да съкратите тази информация в елегантно и кратко резюме.

Както трябва да знаете, вербовчиците не отделят повече от няколко минути, за да прегледат вашето резюме, така че трябва да предадете всичко, което сте направили, на една страница.

Най-важните раздели след вашето име и информация за контакт:

  1. Резюме : В 1-2 изречения предайте какво сте правили и какво възнамерявате да направите.
  2. Умения : Не ги запълвайте с всички произволни умения, които ви идват на ум. Не се маркирайте на кантар. Един ред с всички основни компетенции трябва да е достатъчен.
  3. Проекти : Това трябва да бъде основният раздел за нови градове, тъй като нямате много в раздела си за опит. Бъдете кратки относно постигнатото, добавете хипервръзки към работата си. Присъединете се към проекти за надгробни камъни, състезания Kaggle, независими изследвания и проекти. Този раздел ще се нарича ваше портфолио.
  4. Курсова работа : Добавете само подходяща курсова работа. Можете да споменете своя GPA, ако е приложимо.
  5. Опит (ако имате такъв): Добавете подходяща история на работата, заедно с точките, които говорят за основните задачи, които сте изпълнили в организацията.
  6. Връзки в социалните медии: Не забравяйте да добавите връзки към активните си профили в социалните медии.

Ето пример за добро резюме, което беше прегледано по време на Kaggle CareerCon2018:

Изображение за публикация

Призив за действие

Вероятно все още имате много въпроси. Къде трябва да търсите идеи за проекти? Как да започнете? Как се подготвяте за интервюта? И много други.

Работих по създаването на проекти за всеки профил въз основа на моя опит, работещ като инструктор за създаване на записи в мрежата и науката за данни.

Въз основа на отговора ви на тази публикация ще създам канал за раздори за всеки профил, където ще споделям проектите и инструкциите за попълването им с времевата линия, свързана с всеки.

Силно вярвам в базираната на проекти педагогика и по този начин ще създавам много съдържание, където да бъде обхванато развитието на проектите. Бих споделил ресурсите, които можете да използвате, за да научите (някои от които ще създам сам) и да завърша проектите успешно.

Тук можете да разгледате един от моите примери: Табло за интерактивен анализ на COVID-19 от Jupyter Notebooks.

Ето видео версията на тази публикация в блога в моя канал Data Science с Harshit:

Наука за данни с Harshit

С този канал планирам да пусна няколко серии, обхващащи цялото пространство за наука за данни. Ето защо трябва да се абонирате за канала:

  • Тези серии ще обхващат всички необходими / изисквани качествени уроци по всяка от темите и подтемите като основите на Python за науката за данни.
  • Обяснена математика и изводи за това, защо правим това, което правим в ML и Deep Learning.
  • Подкасти с изследователи на данни и инженери в Google, Microsoft, Amazon и др., И изпълнителни директори на големи компании, управлявани от данни.
  • Проекти и инструкции за прилагане на научените до момента теми.

За да продължите дискусията напред, не се колебайте да се свържете с мен в LinkedIn или Twitter.