Как да започнем с Databricks

Когато започнах да уча Spark с Pyspark, попаднах на платформата Databricks и я проучих. Тази платформа улесни настройването на среда за стартиране на фреймове за данни на Spark и практикуване на кодиране. Тази публикация съдържа няколко стъпки, които могат да ви помогнат да започнете с Databricks.

Databricks е платформа, която работи на върха на Apache Spark. Той удобно разполага с системи за преносими компютри. Човек може лесно да осигури клъстери в облака и също така включва интегрирано работно пространство за проучване и визуализация.

Можете също така да планирате всеки съществуващ бележник или локално разработен Spark код да премине от прототип към производство, без да преработва.

1. Настройте акаунт на Databricks

За да започнете с урока, отидете до тази връзка и изберете безплатното издание на Общността, за да отворите акаунта си. Тази опция има единичен клъстер с до 6 GB безплатно място за съхранение. Тя ви позволява да създадете основна тетрадка. За да потвърдите акаунта си, ще ви е необходим валиден имейл адрес.

Ще наблюдавате този екран, след като успешно влезете във вашия акаунт.

2. Създаване на нов клъстер

Започваме със създаването на нов клъстер, на който да стартираме нашите програми. Кликнете върху „Клъстер“ на главната страница и въведете ново име за клъстера.

След това трябва да изберете версията „Databricks Runtime“. Databricks Runtime е набор от основни компоненти, които работят на клъстери, управлявани от Databricks. Той включва Apache Spark, но също така добавя редица компоненти и актуализации за подобряване на използваемостта и производителността на инструмента.

Можете да изберете всяка версия на Databricks Runtime - избрах 3.5 LTS (включва Apache Spark 2.2.1, Scala 2.11). Имате избор и между Python 2 и 3.

Ще отнеме няколко минути, за да създадете клъстера. След известно време трябва да можете да видите активен клъстер на таблото за управление.

3. Създаване на нов бележник

Нека да създадем нов бележник, на който можете да стартирате програмата си.

От главната страница натиснете „New Notebook“ и въведете име за Notebook. Изберете езика по ваш избор - тук избрах Python. Можете да видите, че Databricks поддържа множество езици, включително Scala, R и SQL.

След като бъдат въведени подробностите, ще забележите, че оформлението на тетрадката е много подобно на тетрадката на Jupyter. За да тестваме бележника, нека импортираме pyspark.

Командата се изпълнява за 0,15 секунди и също така дава името на клъстера, на който се изпълнява. Ако има грешки в кода, той ще се покаже под полето cmd.

Можете да натиснете иконата на клавиатурата в горния десен ъгъл на страницата, за да видите преки пътища, специфични за операционната система.

Най-важните преки пътища тук са:

  • Shift + Enter, за да стартирате клетка
  • Ctrl + Enter продължава да изпълнява същата клетка, без да се премества в следващата клетка

Обърнете внимание, че тези преки пътища са за Windows. Можете да проверите специфичните за операционната система преки пътища за вашата операционна система на иконата на клавиатурата.

4. Качване на данни в Databricks

Насочете се към раздела „Таблици“ в лявата лента и натиснете „Създаване на таблица“. Можете да качите файл или да се свържете с източник на данни на Spark или друга база данни.

Нека да качим тук често използвания файл с данни за iris (ако нямате набора от данни, използвайте тази връзка)

След като качите данните, създайте таблицата с потребителски интерфейс, за да можете да визуализирате таблицата и да я визуализирате на вашия клъстер. Както можете да видите, можете да наблюдавате атрибутите на таблицата. Spark ще се опита да открие типа данни на всяка от колоните и ви позволява да редактирате и него.

Сега трябва да се сложи заглавията на колоните, така че може да се идентифицира всяка колона от своя удар с глава, а не _c0, _c1и така нататък.

Поставих техните хедъри като Дължина на сепала, Ширина на сепала, Дължина на венчелистчетата, Ширина на венчелистчето и Клас. Тук Spark откри грешно типа данни на първите четири колони като String, затова го промених на желания тип данни - Float.

5. Как да получите достъп до данни от Notebook

Spark е рамка, която може да се използва за анализ на големи данни с помощта на SQL, машинно обучение, обработка на графики или анализ на поточно предаване в реално време. В този урок ще работим със SparkSQL и Dataframes.

Нека започнем с работата с данните на Notebook. Данните, които сме качили, вече са поставени в табличен формат. Изискваме SQL заявка, за да прочетем данните и да ги поставим в рамка за данни.

Тип df = sqlContext.sql(“SELECT * FROM iris_data”)за четене на данни от ириса в рамка за данни.

За да прегледам първите пет реда в рамката с данни, мога просто да изпълня командата:

display(df.limit(5))

Забележете икона на диаграма в долната част. След като щракнете, можете да видите данните, които сте импортирали в Databricks. За да видите стълбовата диаграма на пълни данни, изпълнете display(df)вместо display(df.limit(5)).

Бутонът за падащо меню ви позволява да визуализирате данните в различни диаграми като лента, пай, разпръскване и т.н. Също така ви дава опции за графика, за да персонализирате сюжета и да визуализирате само конкретни колони.

Можете също да показвате фигури на matplotlib и ggplot в Databricks. За демонстрация вижте Matplotlib и ggplot в тетрадките на Python.

За да видите всички колони на данните, просто напишете df.columns

За да преброите колко редове има общо в Dataframe (и да видите колко време отнема пълно сканиране от отдалечен диск / S3), изпълнете df.count().

6. Преобразуване на кадър от данни Spark в кадър на данни Pandas.

Сега, ако ви е удобно да използвате рамки за данни на pandas и искате да конвертирате вашия кадър от данни Spark в pandas, можете да направите това, като поставите командата

import pandas as pdpandas_df=df.to_pandas()

Сега можете да използвате операции на панди върху рамката с pandas_dfданни.

7. Преглед на потребителския интерфейс на Spark

Потребителският интерфейс на Spark съдържа богата информация, необходима за отстраняване на грешки в задачите на Spark. Има куп страхотни визуализации, така че нека ги разгледаме в основата си.

За да отидете на Spark UI, трябва да отидете в горната част на страницата, където има някои опции от менюто като „Файл“, „Изглед“, „Код“, „Разрешения“ и други. Ще намерите името на клъстера в горната част до „Attached“ и бутон за падащо меню до него. Натиснете бутона за падащо меню и изберете „View Spark UI“. Ще се отвори нов раздел с много информация на вашия бележник.

Изгледът на потребителския интерфейс дава много информация за всяка задача, изпълнена в клъстера, етапи, среда и изпълнени SQL заявки. Този потребителски интерфейс може да бъде полезен за потребителите при отстраняване на грешки в техните приложения. Също така този потребителски интерфейс дава добра визуализация на статистиката за стрийминг на Spark. За да научите по-подробно за всеки аспект на Spark UI, вижте тази връзка.

След като приключите с Бележника, можете да го публикувате или да експортирате файла в различни файлови формати, така че някой друг да може да го използва, като използва уникална връзка. Прикачих бележника си в HTML формат.

Обобщавайки

Това е кратък преглед за това как можете бързо да започнете с Databricks и да стартирате програмите си. Предимството на използването на Databricks е, че предлага цялостна услуга за изграждане на анализи, складиране на данни и приложения за машинно обучение. Целият клъстер Spark може да се управлява, наблюдава и обезопасява с помощта на модел на самообслужване на Databricks.

Ето няколко интересни връзки за Data Scientist и за Data Engineers. Освен това ето урок, който намерих за много полезен и е чудесен за начинаещи.