Apache Zeppelin


Apache Zeppelin to webowy notatnik pozwalający na szybką analizę danych oraz współpracę z takimi platformami i językami jak:

  • Apache Spark,
  • Apache Hive,
  • Cassandra,
  • SQL,
  • Scala,
  • Python,
  • powłoka Unix.

Wprowadzenie

Kliknij tu -> Apache zeppelin a następnie zaloguj się przy użyciu nazwy użytkownika i hasła dostarczonego przez prowadzącego.

Uwaga: może wystąpić problem z zalogowaniem się na niektórych wersjach przeglądarki Firefox pracujących na najnowszej wersji Ubuntu 18.04. Problem jest związany z bugiem w IBus. Problem można rozwiązać instalując paczkę .deb. Więcej informacji można znaleźć TU i TU.

Podstawowe operacje

Notatnik Apache Zeppelin, pozwala na dostęp do różnorakich narzędzi, pisanie kodu i prezenację wyników. Aby stworzyć własny notatnik, z górnego menu Apache Zeppelin wybierz: Notebook -> Create new note.

Wpowadź nazwę notatki jako students/$TWOJ_LOGIN/nazwa_notatki. Użycie znaku / w nazwie spowoduje utworzenie folderu. Następnie przejrzyj poniższe samouczki, żeby zapoznać się z podstawami wykorzystania Apache Zeppelin:

Ustawienia notatek

Po stworzeniu notatki, wybierz przycisk kłódki w lewym górnym rogu i następnie ustaw dostęp do notatki dla innych użytkowników. Przykładowe ustawienia prezentuje poniższy obrazek. Pamiętaj, że pozostawienie wolnych pól spowoduje, że dane uprawnienia będą posiadali wszyscy użytkownicy.

ustawienia dostępu

Następnie wybierz przycisk Interpreter binding i upewni się, że interpreter spark jest zaznaczony na niebiesko (włączony) tak jak na poniższym obrazku.

ustawienia dostępu

User Data

W ramach realizacji projektu może się pojawić potrzeba wyświetlenia plików z wynikami (pliki tekstwowe, obrazy etc.). Apache Zeppelin nie może wyświetlić dostępnych lokalnie obrazów, muszą być one wystawione przy użyciu serwera. Dla potrzeb zajęć z TKiS każdy z użytkowników otrzymał folder (~/public_html lub /home/$USER_NAME/public_html), któregp zawartość jest automatcznie udostępniana na domenie:

https://bigdata.apl.task.gda.pl/user-data/ (zwróć uwagę, że aktualnie nie masz dostępu do tego adresu)

Przykładowo: jeśli użytkownik studentTKiS utworzy plik test.jpg w katalogu /home/studentTKiS/public_html to ten obraz zostanie udostępniony pod adresem: https://bigdata.apl.task.gda.pl/user-data/~studentTKiS/test.jpg. Oczywiście należy pamiętać po odświeżeniu okna przeglądarki po dodaniu pliku!

Uwaga: zwróć uwagę na znak ~ przed nazwą użytkownika.

Poniżej znajduje się link do notatnki, która zawiera m. in. samouczek wykorzystujący w/w sposób na wyświetlenie lokalnego obrazu: