Data Science Summit 2018

Dnia 8 czerwca 2018 na terenie Politechniki Warszawskiej odbyła się druga edycja Data Science Summit. Była to konferencja w całości poświęcona tematyce sieci neuronowych, sztucznej inteligencji, wielkich zbiorów danych i ich szerokich zastosowań w przemyśle, usługach oraz codziennym życiu. Każdy zainteresowany uczeniem głębokim, przetwarzaniem języka naturalnego, klasyfikacją i przetwarzaniem obrazów, wykrywaniem anomalii pomiarowych, analityką predykcyjną, systemami rekomendacji, wielkimi zbiorami danych oraz analizą przestrzenną danych – z pewnością mógł poszerzyć swoją wiedzę i spotkać się z ludźmi, którzy zajmują się tego typu problemami w swojej codziennej pracy.

Rejestracja na stronie

Strona wydarzenia robiła bardzo pozytywne, nowoczesne i godne zaufania wrażenie. Bez dłuższej zwłoki przystąpiłem do rejestracji swojego uczestnictwa w Data Science Summit. Niestety, dosyć późno dowiedziałem się o wydarzeniu i normalne miejsca były już niedostępne – pozostały tylko miejsca VIP. Zdecydowałem się jednak na udział w konferencji i w procesie rejestracji wybrałem stosowne opcje. Dokonałem wyboru prelekcji, które chcę zobaczyć, a następnie spróbowałem przejść na kolejną stronę. Zaskoczyło mnie, że nie mogę tego zrobić, jeżeli nie wybrałem dla swojego udziału konkretnej ścieżki. Tego wyboru dokonałem na postawie większości wybranych prezentacji z danej kategorii.

Po zakończeniu procesu, otrzymałem email, a w nim swoją agendę – 11 prezentacji z opisem sal i miejsc – ze zdziwieniem przeczytałem, że tylko dla wybranej ścieżki były oznaczone miejsca VIP. Przecież wszystkie „zwykłe” miejsca zostały już zarezerwowane, czy w takim razie na pozostałych wykładach będę stał pod ścianą?

Historia poprzedzająca dzień Data Science Summit 2018

Organizatorzy zadbali o to, aby uczestnicy nie zapomnieli o wydarzeniu. Dnia 6 czerwca otrzymałem poprzez email, garść informacji na temat konferencji wraz ze zaktualizowaną agendą. Poprawie uległy opisy miejsc – tym razem na wszystkich prezentacjach były opisane jako VIP. Minus był natomiast taki, że zamiast jedenastu, w nowym zaproszeniu figurowało dziewięć prezentacji – kilka z nich zostało zmienionych na inne, lecz nie było to uwzględnione w rezerwacjach. W dzień poprzedzający datę DSS#18 otrzymałem wiadomość SMS przypominającą o udziale i pojawieniu się na terenie Politechniki. Szkoda, że na zaproszeniu mam dziewięć wykładów – prawdopodobnie będę musiał coś wymyślić aby zobaczyć więcej. 😉

Przed prelekcjami

Na teren Politechniki dotarłem trochę za wcześnie. Pogoda była wyśmienita więc czekanie kilkunastu minut na wybicie 8:00 było perspektywą całkowicie pozytywną. Po otwarciu rejestracji, na uczestników czekała cała masa organizatorów z identyfikatorami. Zaraz po zeskanowaniu kodu QR z email’a, otrzymałem przepustkę, informację o dostępie do strefy VIP na piątym piętrze oraz wiadomość SMS o poprawnej rejestracji. Chwilę pokręciłem się na parterze, wyszedłem na zewnątrz poczuć elektryzującą atmosferę tłumu uczestników oczekujących na wydarzenie. Następnie postanowiłem sprawdzić, co przygotowano w strefie dla gości specjalnych.

Ze znalezieniem się na piątym piętrze gmachu nie miałem problemów. Odszukanie pomieszczenia z cateringiem i kawą było jednak zadaniem wykraczającym poza gwarancję sukcesu za pierwszym podejściem. Nie byłem w tej porażce osamotniony – pozostali VIP entuzjaści data science również mieli z tym kłopot – zasięgnięcie porady obsługi pozwoliło odszukać miejsce gdzie czekała na nas kawa i słodycze.

Wspomaganie argumentacji

Do rozpoczęcia zostało jeszcze około pół godziny, gdy dosiadł się do mojego stolika Łukasz Wilisowski, programista z fundacji Optimum Pareto na co dzień pracujący dla ABB w Krakowie. Opowiedział mi, że fundacja zajmuje się wspomaganiem argumentacji i wnioskowania na podstawie przetwarzania języka naturalnego. W praktyce oznacza to, że być może w przyszłości będziemy mogli konsultować swój punkt widzenia, na dany sporny temat, z cyfrowym asystentem. Będzie on mógł określić czy mamy rację, czy nie – dodatkowo poprawiając sposób w jaki artykułujemy nasze argumenty w dyskusji. Łukasz przytoczył przy tym spostrzeżenie, że przecież większość argumentów w przeważającej części dyskusji została już użyta i przyjęta bądź odrzucona – nie ma sensu powtarzać tych samych dowodów w tych samych tezach. Do realizacji projektu, fundacja stosuje grafowe bazy danych, a dokładnie jedną z popularniejszych wśród użytkowników – Neo4j.

Otwarcie

Na otwarciu Data Science Summit 2018 obecnych było wielu ważnych ludzi ze świata edukacji. Przedstawiciele uczelni wyższych takich jak Politechnika Warszawska, Wojskowa Akademia Techniczna, Polsko-Japońska Akademia Technik Komputerowych oraz pełnomocnik ministra cyfryzacji – Robert Kroplewski. Podziękowania, przywitania i kilka słów na temat przyszłości nauki w odniesieniu do uczenia maszynowego, sztucznej inteligencji oraz tematów pokrewnych były spodziewane. Niespodziewana natomiast była wzmianka na temat porozumienia UE dotyczącego realizacji w jakimś zakresie HPC na terenie naszego kraju. Co dokładnie chciał przekazać Robert Kroplewski, nie wiem, być może mówił o projekcie EuroHPC i ustaleniach z 6 czerwca? Tego pewnie dowiemy się w najbliższej przyszłości.

Początkowe Prelekcje

Konferencja została zaplanowana na 25 minut wystąpienia, 5 minut na pytania od uczestników, a następnie 5 lub 15 minut przerwy pomiędzy prezentacjami. Wielokrotnie odniosłem wrażenie, że brakowało czasu prezentującym, aby w pełni przekazać swoją wiedzę. Pięć minut na pytania również okazało się w wielu przypadkach niewystarczające, ponieważ widownia była niezwykle aktywna i zadawała masę pytań. Chwilę po otwarciu rozpoczęła się pierwsza prelekcja.

Filip Wolski z OpenAI omawiał projekt nad którym aktualnie pracuje, czyli badanie modeli oraz technik uczenia wzmocnionego w środowisku gier wideo. Głównym celem projektu jest zrealizowanie bota do gry Dota 2, który będzie w stanie wygrać z najlepszymi graczami na świecie. Zaznaczył przy tym, że gry wideo są używane ze względu na łatwość symulowania określonych warunków środowiskowych oraz powtarzalność tego środowiska. Błędy w uczeniu AI są niezwykle trudne w analizie, a ponowne uczenie trwa długo – gry wideo znacznie ułatwiają proces walidacji agenta AI. W przypadku opracowania metod umożliwiających równie łatwe ucznie nienadzorowane w świecie rzeczywistym, badania nad tą gałęzią sztucznej inteligencji byłyby prowadzone właśnie w takim środowisku.

Damian Warszawski z ASTEK zaprezentował nam biblioteki Intel BigDL wraz z szybkim wprowadzeniem do API. Można było dostrzec podobieństwa do Tensorflow , czy Torch. Biblioteki BigDL mają wykonywać obliczenia na CPU z wydajnością porównywalną do innych bibliotek uczenia maszynowego obliczających na GPU. Zostały nam pokazane wyniki uczenia modelu głębokiej 16 warstwowej splecionej sieci neuronowej (CNN) na podstawowej maszynie dostępnej na Google Cloud Platform – wyniki były interesujące.

Banki inwestują w dane

Magdalena Sobolweska oraz Dominika Basaj w trakcie swojego wykładu prezentowały wyniki ostatnich miesięcy pracy. Polegała ona na budowie modeli atrybucji w celu określenia najskuteczniejszych kanałów w procesie konwersji. Ich pracodawca, bank ING chciał wiedzieć które z kanałów należy dofinansować w kolejnej kampanii marketingowej aby zmaksymalizować sprzedaż.

Wyzwania jakie miały przed sobą to m.in.: pracowały na danych ruchu sieciowego stron ING z ostatnich 5 miesięcy, co oznaczało wielkie ilości danych do przetworzenia. Python okazał się niewystarczający, więc w tym celu został użyty Apache Spark. Część ruchu była generowana przez boty pełzające, co należało wykryć i odrzucić ze zbioru. Użytkownicy przełączają się z jednego urządzenia na inne, czego nie da się zobaczyć w danych. Dla każdej sesji generowane jest oryginalne ciasteczko. Do rozwiązania problemu użyły formy łańcuchów Markowa. Otrzymane wyniki były w większości zbieżne z intuicją specjalistów od marketingu. Więcej o analizie atrybucji w prezentacji Pawła Zawistowskiego.

Kształt danych i narzędzia do wizualizacji

Krzysztof Rykaczewski z DLabs wygłaszał wykład na temat nowej dziedziny nauki jaką jest przestrzenna analiza danych. Zawarł przykłady metod analizy pomocnych przy redukcji wymiarowości danych. Wprowadził uczestników w liczby Bettiego, kompleksy symplicjalne oraz pokazał narzędzia do wizualizacji danych.

Jakie narzędzia do wizualizacji danych będą najlepsze dla uczestników – odpowiadał Michał Mokwiński z CBRE. Dokonał klasyfikacji narzędzi na języki programowania, edytory oraz generatory. Ta ostatnia grupa jest o tyle ciekawa, że użytkownik zaczyna w niej od definiowania wyglądu wykresów, a dopiero potem podłącza dane. Generatory dodatkowo są najłatwiejsze w dostosowaniu pod potrzeby. Wymienił narzędzia takie jak: DataIllustrator, DataWrapper, Flourish, zaklasyfikowane przez prelegenta jako generatory.

Czas na obiad

Po godzinie 12:40 nastąpiła dłuższa, trwająca godzinę, przerwa w przebiegu Data Science Summit przewidziana na obiad. Dla wszystkich uczestników wydarzenia dostępna była pizza. Osoby, które wykupiły profil VIP, mogły zdecydować się na katering. W meni dostępne były dwa dania: pierś z kurczaka oraz wegetariańskie borito zapiekane z serem. Do tego mieszanka warzyw. Nie jestem wegetarianinem ale borito z serem wydało mi się ciekawszym wyborem. Kłopotliwe okazało się znalezienie miejsca pozwalającego usiąść i zjeść. Posiłek był smaczny i niczego nie można mu zarzucić.

Przerwę wykorzystałem do odwiedzenia stanowisk firm i porozmawiania z przedstawicielami. Dzięki temu dowiedziałem się, że NVIDIA w październiku 2017 otworzyła w Warszawie małe biuro, gdzie pracuje 15 programistów C++/Python zajmujących się wytwarzaniem algorytmów uczenia głębokiego, czy przetwarzania danych. Celem jest oczywiście optymalizacja wykonywania tych obliczeń na GPU od NVIDII, m.in. poprzez rozwój biblioteki cuDNN.

Na stanowisku ING dowiedziałem się natomiast, że bank jest niezwykle otwarty na wszelkie formy rozwoju w dziedzinie data science. Jeżeli kandydat będzie miał pomysł na realizację projektu z dziedziny autonomicznych aut lub utrzymania predykcyjnego, to bardzo prawdopodobne, że taki program zostanie otwarty w dziale badań i rozwoju banku. Tak twierdził jeden z badaczy zatrudnionych w R&D. Dowiedziałem się także, że ze wszystkich rozwijanych projektów, tylko 15% trafia na produkcję.

Sezonowe zadłużenia

Mateusz Grzyb z ITMAGINATION wygłaszał wykład pod tytułem „ML w problemie scoringu – case study”. Uczestnicy mogli przyjrzeć się kolejnym etapom realizacji systemu wspomagającego decyzje w sprawie przyznawania kredytów. Mateusz wyjaśniał dlaczego model oparty na regresji logistycznej jest lepszy od drzewa decyzyjnego do rozwiązania tego problemu – m.in. dlatego, że nawet uczciwi kredytobiorcy mają skłonność do sezonowego (okres wakacyjny, świąteczny) zalegania ze spłatami zobowiązań. Do czasu jak spłacają całość zobowiązania, nie powinno to wpływać na ocenę. W realizacji wykorzystano iteracyjną metodę budowy modeli – CrispDM. Ciekawostka, że kluczowa w realizacji była bliska współpraca ze specjalistami klienta oraz zróżnicowany pod względem wieku, doświadczenia oraz wykształcenia zespół. To twierdzenie usłyszałem na wielu wykładach Data Science Summit.

Od przybytku głowa boli

O maszynach, które nie muszą się psuć opowiadali w trakcie Data Science Summit, Aleksander Fafuła oraz Artur Jastrzębski. Poruszali oni tematykę utrzymania predykcyjnego za pomocą internetu rzeczy. Można było dowiedzieć się, na czym polega realizacja tego typu systemu. Okazuje się, że wiele przedsiębiorstw zbiera ogromne ilości danych z sensorów na swoich urządzeniach dla samego faktu zbierania. Zjawiskiem powszechnym jest również nadmiar czujników, ze względu na ich niską cenę. To wszystko sprawia, że realizując utrzymanie predykcyjne badacze muszą zmierzyć się z nadmiarem danych, błędami w tabelach, czy pomiarami zbędnymi.

Niezbędne jest oczyszczenie zbiorów danych z błędnych pozycji w tabelach typu NaN, NULL, czy Connection Error. Aby system działał sprawnie należy ograniczyć ilość czujników z których analizowane są dane. Trzeba również powiązać cechy udostępnionych zbiorów danych z wystąpieniami awarii. Autorzy zwrócili uwagę, że utrzymanie predykcyjne nie zawsze jest potrzebne i opłacalne – jeżeli koszty postoju maszyny są niskie, nie zagrażają zdrowiu i życiu, to prawdopodobnie system tego typu nie jest potrzebny. Również w tym wykładzie pojawiła się informacja o ogromnym wpływie bliskiej współpracy ze specjalistami klienta na sukces projektu.

Niezmienność silników lotniczych

Jednym z ostatnich wykładów jakie zobaczyłem na Data Science Summit 2018, był ten wygłaszany przez Łukasza Mączewskiego dotyczący tematyki predykcyjnego utrzymania silników lotniczych. Silniki lotnicze ze względu na istotność bezawaryjnej pracy na bezpieczeństwo wielu ludzi oraz brak możliwości naprawy w powietrzu nie mogą być obsługiwane w sposób reaktywny – niezbędne jest podejście predykcyjne. Dodatkowo części zamienne są trudno dostępne i wymagają wcześniejszego zamówienia, co wiąże się z zaplanowaniem napraw i przeglądów.

Wszystkie te fakty sprawiają, że na rynku istnieje potrzeba rozwoju i poprawy metod predykcyjnego utrzymania. Autor zwraca uwagę na niewielkie zmiany co do konstrukcji silników odrzutowych na przestrzeni ostatnich lat, a dalszy rozwój tych urządzeń dostrzega właśnie w internecie rzeczy i poprawie algorytmów z dziedziny data science.

Pisane emocje

Paweł Pollak i Anna Wróblewska z Applica zaprezentowali wyniki swoich badań nad stworzeniem modelu sieci neuronowych potrafiących ocenić emocje w słowie pisanym. Na początku słuchacze zostali wprowadzeni w teorię emocji (m. in. Plutchnika ) na której oparli swoje modele. Następnie zostały przedstawione kolejne kroki, próby i podejścia jakie zostały wypróbowane w celu osiągnięcia oczekiwanych wyników. Emocja złości znacząco dominowała w zbiorze danych będącym kolekcją komentarzy z internetu – oczywiście 😉

To co uznaję za ciekawe – badacze sprawdzali również sieci, które pobierają pojedyncze litery w zdaniach, a nie całe słowa. Zaskakujące dla mnie o tyle, że same litery nie posiadają żadnego znaczenia ani kontekstu w języku. Aby litery nabrały znaczenia potrzebne jest o wiele rzędów więcej powiązań w sieci niż w przypadku całych słów. Nie jestem jednak specjalistą w dziedzinie przetwarzania języka naturalnego.

Ze względu na specyficzną cechę zbioru danych na którym pracowali – to jest częste błędy w pisanych słowach – biblioteki zanurzenia słów typu word2vec nie sprawdziły się i została użyta fastText, do zamiany słów na postać wektorową. Ostatnim zaskoczeniem była informacja, że najlepiej w rozwiązaniu zagadnienia sprawdziły się splecione sieci neuronowe (CNN), klasycznie stosowane do problemów klasyfikacji i przetwarzania obrazów. Zaprezentowane przykłady działania sieci wykazywały wysoką poprawność oceny emocji z tekstu.

Dwie głowy – to nie jedna

Ostatni wykład, którego byłem uczestnikiem na Data Science Summit, dotyczył zastosowania stosów modeli sieci neuronowych w rozwiązywaniu problemów biznesowych. Jak sam prelegent – Dawid Kopczyk z Quantee Limited – przyznaje, idea nie jest nowa. Pomysł ten opisał już 1992 roku David H. Wolpert w pracy Stacked Generalization. Działanie stosów porównał do funkcjonowania działu marketingu w firmie, gdzie kilku analityków określa, zgodnie ze swoją intuicją, sprzedaż danego produktu. Te wartości trafiają do mniejszej liczby niezależnych managerów, którzy znając mocne i słabe strony swoich analityków, wprowadzają korektę. Ostatnią wartość sprzedaży określa dyrektor na podstawie danych przekazanych przez managerów.

Główną zaletą stosowania stosów modeli sieci neuronowych jest wyższa skuteczność, poprawność informacji generowanych na podstawie wprowadzonych danych. Największa wada to brak propagacji wstecznej co oznacza niemożność douczenia stosu. Jedynym sposobem na poprawę wyników jest wymiana jednego z modeli na inny – ponownie nauczony – co wiąże się czasem potrzebnym na realizację procesu uczenia oraz ekstrakcją danych oczekiwanych przez ten model.

Narzekanie na Podsumowanie

Data Science Summit 2018 była wspaniałą konferencją, wspieraną przez środowiska naukowe oraz państwowe. Pewne drobnostki nie zagrały tak jak powinny i ze względu na małe znaczenie, pozwolę sobie wymienić je teraz. Na mniejszych salach prelegenci nie zostali wyposażeni w mikrofon, przez co na tyłach sal słuchacze mogli mieć problem z wyraźnym usłyszeniem wykładów. Niebieskie barwy świateł, obecnych na scenie zaburzały paletę barw prezentacji – w przypadku wykresów – miało to znaczenie. Na pierwszej prelekcji Filip Wolski przez połowę swojego czasu prowadził mowę przy braku prezentacji – problemy techniczne z przejściówką uniemożliwiały wyświetlanie obrazu na rzutniku. W mniejszych salach bywało duszno i gorąco. Przerwy pomiędzy wykładami były na tyle krótkie, że wystarczały tylko na przejście do sali – nie było możliwości porozmawiania z innymi uczestnikami Data Science Summit 2018.

To jednak drobne potknięcia, które zapewne zostaną poprawione przy okazji kolejnej edycji. Wydarzenie było naprawę ogromne w porównaniu do ostatnio opisywanego Dev College Combo#2. Trochę mi żal wszystkich pominiętych tego dnia wykładów. Chętnie przeczytał bym relację osoby, która wybrała pominięte przeze mnie prezentacje.