Apache Zeppelin to webowy notatnik pozwalający na szybką analizę danych oraz współpracę z takimi platformami i językami jak:
- Apache Spark,
- Apache Hive,
- Cassandra,
- SQL,
- Scala,
- Python,
- powłoka Unix.
Wprowadzenie
Kliknij tu -> Apache zeppelin a następnie zaloguj się przy użyciu nazwy użytkownika i hasła dostarczonego przez prowadzącego.
Uwaga: może wystąpić problem z zalogowaniem się na niektórych wersjach przeglądarki Firefox pracujących na najnowszej wersji Ubuntu 18.04. Problem jest związany z bugiem w IBus. Problem można rozwiązać instalując paczkę .deb. Więcej informacji można znaleźć TU i TU.
Podstawowe operacje
Notatnik Apache Zeppelin, pozwala na dostęp do różnorakich narzędzi, pisanie kodu i prezenację wyników. Aby stworzyć własny notatnik, z górnego menu Apache Zeppelin wybierz: Notebook -> Create new note.
Wpowadź nazwę notatki jako students/$TWOJ_LOGIN/nazwa_notatki. Użycie znaku / w nazwie spowoduje utworzenie folderu. Następnie przejrzyj poniższe samouczki, żeby zapoznać się z podstawami wykorzystania Apache Zeppelin:
- Wykorzystanie Spark i SQL,
- Podstawowe Intepretery ,
- Wykorzystniae Apache Spark do przetwarzania danych Sentinel,
- oraz inne notatki dostępne poprzez Notebook -> Zeppelin Tutorial oraz Notebook -> Zeppelin TKiS.
Ustawienia notatek
Po stworzeniu notatki, wybierz przycisk kłódki w lewym górnym rogu i następnie ustaw dostęp do notatki dla innych użytkowników. Przykładowe ustawienia prezentuje poniższy obrazek. Pamiętaj, że pozostawienie wolnych pól spowoduje, że dane uprawnienia będą posiadali wszyscy użytkownicy.
Następnie wybierz przycisk Interpreter binding i upewni się, że interpreter spark jest zaznaczony na niebiesko (włączony) tak jak na poniższym obrazku.
User Data
W ramach realizacji projektu może się pojawić potrzeba wyświetlenia plików z wynikami (pliki tekstwowe, obrazy etc.). Apache Zeppelin nie może wyświetlić dostępnych lokalnie obrazów, muszą być one wystawione przy użyciu serwera. Dla potrzeb zajęć z TKiS każdy z użytkowników otrzymał folder (~/public_html lub /home/$USER_NAME/public_html), któregp zawartość jest automatcznie udostępniana na domenie:
https://bigdata.apl.task.gda.pl/user-data/ (zwróć uwagę, że aktualnie nie masz dostępu do tego adresu)
Przykładowo: jeśli użytkownik studentTKiS utworzy plik test.jpg w katalogu /home/studentTKiS/public_html to ten obraz zostanie udostępniony pod adresem: https://bigdata.apl.task.gda.pl/user-data/~studentTKiS/test.jpg. Oczywiście należy pamiętać po odświeżeniu okna przeglądarki po dodaniu pliku!
Uwaga: zwróć uwagę na znak ~ przed nazwą użytkownika.
Poniżej znajduje się link do notatnki, która zawiera m. in. samouczek wykorzystujący w/w sposób na wyświetlenie lokalnego obrazu: