#DataScience #DataScientist #MachineLearning
🟡 Chcesz więcej? kajodata.com/newsletter/
Hype na data science trwa. Prawdopodobnie słusznie. Danych wokół nas przybywa, wielu z nas idzie w kierunku analizy danych i tak, więc być może warto byłoby sięgnąć najwyższej półki. Jak w każdym zawodzie - dobrze mieć wzór, jakąś prawdziwą osobę, która wie jak sprawy wyglądają.
Dlatego zdecydowałem się porozmawiać z Kasią Dyl, które pracuje jako Machine Learning Engineer, czyli częścią Data Science. Oto pierwsza część naszej rozmowy.
********************
🟢 Kasię można znaleźć w internetach między innymi tu:
🟡 blog: www.crappydata.pl
🟡 insta: / crappydata
🟡 fb: / crappydata
********************
Plan naszej rozmowy:
00:00 Intro
01:29 Czy Data Science to czarna magia?
03:14 Dlaczego nie musisz być programistą?
05:46 Analiza danych - jak zacząć?
09:32 Co to jest Data Science?
17:35 Kto może pracować jako Data Scientist?
22:45 Ulubione programy do analizy danych
********************
Rozmawiało nam się tak, dobrze, że cała nasza pogawędka zajęła ponad godzinę, dlatego to jest dopiero pierwsza część. Druga - w kolejnym odcinku
*******************
Jeżeli chcesz obejrzeć inne moje wywiady ze specjalistami od danych, to zapraszam na dedykowaną playlistę: • Wywiady
Mojego bloga znajdziesz zaś tu: kajodata.com/

Пікірлер: 39

@majinkaras3 ай бұрын
Przez ten kanał chcę się przebranżowić z grafiką na analityka a docelowo na data science/machinie learning. Dziękuję 😂
@kajodata
Ай бұрын
No i super 😊 a co robisz obecnie?
@majinkaras
Ай бұрын
@@kajodata jestem grafikiem. Projektuje opakowania na łososia dla największego przetwórcy na świecie - jeśli kupowałeś łososia w jakimś dyskoncie w europie to na 90% coś przeszło przez moje ręce :)
@paulinalad32762 жыл бұрын
Bardzo sie ciesze, ze na was trafilam ;) zaczynam właśnie swoja pierwsza prace jako Analitych Danych i mam bardzo duzo pytan i wątpliwosci. A wy mówicie prosto i na temat, podoba mi się wasze podejście do tamatu. Działajcie dalej :)
@kajodata
2 жыл бұрын
Działamy, już w najbliższy poniedziałek druga część!
@rafalg85752 жыл бұрын
Kasiu, Kajo dziękuję za film. Uważam, że jest szczery i autentyczny co sobie cenię. Zastanawiam się sam czy rzeczywiście data science to taki awans dla analityka. Sam jestem takim analitykiem czy jak to tytułują w firmach BI Developerem. Widzę, że te role mogą się nieźle uzupełniać np. Analityk robi modelowanie, dashboard, transformacje np.w DAX, SQL itd. A uczenie maszynowe robi data science razem z całą zaawansowana statystyka, matematyka. PS. Mam naprawdę niezły kurs machine learning na Udemy, który szczegółowo omawia stosowane techniki jak drzewa decyzyjne, regresja i 20 innych, ale ciągle nie znajduje czasu żeby do niego przysiąść. Świat danych jest tak duży, że jest w nim dużo miejsca. I moje podejście potwierdzą chyba coraz popularniejsze używanie uwspolnionych platform dla data science, data engineeringu i analityki SQL - patrz databricks. Ile Twoim zdaniem Kasiu trzeba poświęcić czasu żeby zająć się data science ? Przyznaje, że Świąt naukowy data science jest dla mnie przerażający. Mam wrażenie, że komplikuje często bardziej niż trzeba potrzeby jakie ma biznes. Oczywiście pewnie się mylę 😀. Pozdrawiam serdecznie!
@rafalg8575
2 жыл бұрын
Bardzo mnie interesuje w jaki sposób podejmuje się decyzję, że wybieramy akurat konkretną technikę w data science jak to się odbywa. Czy bada się dopasowanie do konkretnego modelu ? Jeśli dobrze pamiętam chi kwadrat
@kajodata
2 жыл бұрын
Dzięki za obszerny comment Rafał :)
@CrappyData
2 жыл бұрын
Cześć Rafał, przepraszam za późną odpowiedź, ale przestałam po jakimś czasie sprawdzać komentarze pod tym filmem. Co do czasu potrzebnego do nauki DS - moim zdaniem dla dobrego analityka danych to 6 - 12 miesięcy nauki. Rozumiem, że to jest przerażające - jednak sęk w tym, że zagadnień DSowych jest naprawdę dużo - ale jak zacznie się w nie wgłębiać to zazwyczaj nie są one szczególnie trudne, a często wręcz genialne w swojej prostocie. Po prostu jest ich dużo, dlatego potrzeba dużo cierpliwości i samozaparcia.
@CrappyData
2 жыл бұрын
@@rafalg8575 Co do decyzji jaką technikę wybieramy - po pierwsze musimy odpowiedzieć na pytanie co chcemy osiągnąć. Czasami chcemy przewidzieć klasę (np. czy klient do nas wróci? tak lub nie - 2 możliwe klasy), czasami przewidzieć wartości numeryczne (jaka powinna być cena mieszkania), a czasami coś zarekomendować (np. youtube buduje rekomendacje, który film nas zaciekawi). Dla każdego tego problemu jest trochę inny typ modelu - w przypadku klas mamy klasyfikatory, dla danych numerycznych regresory, a dla rekomendacji tzw. systemy rekomendacyjne. Jak mamy określony typ modelu, to zostaje nam wybór algorytmu - niektóre z tych algorytmów są w stanie tylko znaleźć zależności liniowe (np. regresja liniowa), zatem odpadają już na początku, bo zazwyczaj używamy ML po to, aby znaleźć zależności nieliniowe. A potem to się już wybiera spośród algorytmów, które najlepiej działają na rynku - są najszybsze, dają najlepsze wyniki i nie mają problemów z przetrenowaniem. Obecnie najlepiej działają tzw. gradient boosting trees, np. XGBoost lub Catboost, czyli często stosuje się po prostu te algorytmy. Dobrą praktyką jest także benchmarking - robimy prosty liniowy model liniowy, sprawdzamy jakie otrzymujemy wyniki, a następnie sprawdzamy jakie wyniki dostajemy w przypadku innych algorytmów. Data science to bardzo iteracyjna i eksperymentalna dziedzina wiedzy, zatem większość decyzji jest podejmowana poprzez próbowanie różnych rzeczy.
@krzysztofgie79362 жыл бұрын
Bardzo ciekawy odcinek, watek z matematyka bardzo mnie zaskoczyl
@kajodata
2 жыл бұрын
Prawda, że daje nadzieje?
@krystiank95832 жыл бұрын
Super rozmowa, sam jeszcze nie pracuję, celuję w ML, ale tak jak Kasia mówi zostaniem analitykiem danych wydaje się łatwiejsze i nie wiem czy opłaca się czekać aby od razu wskoczyć na stanowisko ML czy łapać od razu coś na analityka
@kajodata
2 жыл бұрын
Dzięki za comment :) bycie analitykiem to może być po prostu krok na drodze do pracy w ML
@CrappyData
2 жыл бұрын
Dokładnie, ja polecam na początek zostanie analitykiem, a później przejście na DS
@dassad97772 жыл бұрын
15:10 Wiele modeli jest takimi Black Boxami, że nawet gdy napiszesz sam sieć neuronową i nawet jak wiesz ile jest warstw i jakie y funkcje aktywacji, to tak naprawdę nie wiesz dlaczego i jak ona działa, bo działa ona przez to że elementy uzupełniają się wzajemnie. I prawie nikt na świecie (poza kilkoma może teoretykami mocno w tym siedzacymi) nie będzie Ci w stanie powiedzieć dlaczego to działa.
@kajodata
2 жыл бұрын
Nie jestem aż tak zaawansowany w DS, żeby się tu jakoś mocno wypowiedzieć, ale wedle większości źródeł jakie znam - tak to trochę wygląda 🙂
@CrappyData
2 жыл бұрын
Trochę tak a trochę nie. Główny problem z black boxami jest taki, że stosujemy ML, aby odkryć skomplikowane, nieliniowe zależności, a potem mamy problem, że nie rozumiemy wyniku modelu - ale przecież gdyby nasz mózg był w stanie ogarnąć nieliniowe zależności między wieloma zmiennymi, to nie potrzebowalibyśmy używać ML :)
@6Hav92 жыл бұрын
Kasiu, na instagramie zauważyłem post odnośnie możliwości zarabiania więcej poprzez traktowanie efektu pracy jako utwór. Mogłabyś coś więcej na ten temat wspomnieć?
@CrappyData
2 жыл бұрын
Powinieneś porozmawiać z pracodawcą, aby zapewnił ci odpowiedni aneks do umowy twierdzący jaka część twojej pracy jest pracą twórczą. Później co miesiąc tylko raportujesz utwory do pracodawcy i dostajesz większą wypłatę :)
@kajodata
2 жыл бұрын
Niestety nie każdy pracodawca akceptuje takie rozwiązanie ze względu na zawiłości prawne. Ale spróbować warto, bo wiele fintechów np. rzeczywiście to wykorzystuje by podnieść płace pracowników.
@stworzonabybiec12 жыл бұрын
Jak to 2 odcinek za tydzień? :D Mam pytanie dot. studiów Kasi, ale nie wiem, czy będziecie o tym mówić za tydzień? Oczywiście o tych ostatnich, chociaż ciekawi mnie też, czy Kasia nie ma jakiegoś sentymentu to wieloletnich studiów i pomysłu na to, jak to połączyć ;)
@CrappyData
2 жыл бұрын
Nie będzie o studiach, więc śmiało pisz wszystkie pytania jakie masz :)
@kajodata
2 жыл бұрын
Ale owszem - drugi odcinek już za tydzień :)
@stworzonabybiec1
2 жыл бұрын
@@CrappyData Kasiu, chciałam pytać o opinię na temat studiów na AGH, ale weszłam na bloga i potwierdziłaś moje założenia na temat takich studiów :) Z ciekawości, ile czasu poświęcałaś na naukę Pythona poza studiami? Drugie pytanie, nie chciałabyś jakoś połączyć naprawdę świetnych studiów, które w moim mniemaniu ukończyłaś, z tym, co robisz teraz? Piszę o neurobiologii :) Wydaje mi się to naprawdę fascynujące.
@stworzonabybiec1
2 жыл бұрын
@@kajodata kwestia percepcji - dopiero za tydzień :D
@CrappyData
2 жыл бұрын
@@stworzonabybiec1 niestety mało jest pracy związanej z neurobiologią oprócz kariery naukowej. Mogłabym pracować jako DS w jakiejś firmie farmakologicznej/biologicznej, ale większość tych firm to albo wielkie korporacje, albo "startupy", które się opierają na dotacjach publicznych i są dość mocno powiązane ze światem akademickim. Nie lubię pracować w tego typu firmach. Zależy mi przede wszystkim na bardzo dobrych rozwiązaniach technologicznych, więc najlepiej mi się pracuje w startupach technologicznych (np. fintechach).
@agatanaw85102 жыл бұрын
Jeśli w Data Science to ludzie piszą algorytmy, to czy tak na prawdę możemy mówić o tym, że maszyny myślą za nas? Czy tak na prawdę maszyny nie myślą, ale tylko odczytują instrukcję, które im damy w danym algorytmie? Nie znam się na ma Machine Learning i Data Science, więc próbuje sobie wyobrazić na czym to tak na prawdę polega... Stąd też moje pytanie, przedstawia tylko mój punkt widzenia w odniesieniu do tego jaką mam aktualnie wiedzę na ten temat. Na pewno przewagą maszyn nad człowiekiem jest to że nie popełnią błędów, nie są zmęczone, szybciej potrafią dokonać skomplikowane obliczenia. Jednak uważam, że w analizie czasami liczy się nieschematyczne myślenie i tutaj człowiek potrafi być lepszy od maszyny.
@kajodata
2 жыл бұрын
Cóż, mnie się wydaje, że człowiek jest o wiele bardziej schematyczny, niż na to wygląda - mimo iż schematów swojego myślenia / działania nie dostrzega. Przewagą maszyn jest ilość warunków, które mogą wziąć pod uwagę. Przyjmuje się, że człowiek może brać pod uwagę na raz tak do 5 - 6, a potem już się traci. A tu chodzi o to, by człowiek sam nie pisał "formuł", lecz żeby właśnie "pisała" je maszyna. Trudność polega na ostatecznej interpretacji, bo często kończy się na tym, że taki algorytm powstały w wyniku zaawansowanego ML to niemalże black box, bo trudno ustalić ostatecznie, co jest brane pod uwagę.
@pokropce1
2 жыл бұрын
Ludzie piszą algorytmy determinujące w JAKI SPOSÓB maszyny się będą uczyć, a nie CZEGO się nauczą. Powoduje to, że końcowa instrukcja jak postępować jest wygenerowana przez maszyny, a nie przez człowieka. Głównym powodem stosowania ML jest oprócz ilości i szybkości obliczeń oraz eliminacji ludzkich błędów jest automatyzacja - model co tydzień może się uczyć nowych instrukcji + nieliniowość, czyli to o czym Kajo pisze. Ludzki mózg ma problem ze zrozumieniem nieliniowości, a algorytmy sobie z nią doskonale radzą, przez co są w stanie odkryć zależności biorąc pod uwagę wiele różnych cech w tym samym czasie. My jako ludzie jesteśmy w stanie odkryć proste liniowe zależności, np. jeżeli cecha A ma wartość X, to wynik będzie wynosił 1, ale nie jesteśmy w stanie ogarnąć wiele cech jednocześnie, np. że A->1 tylko pod warunkiem gdy cecha B=Y, a cecha C >Z. Przez to ML często są nazywane black boxami, chociaż nie do końca to prawda - już są metody na wytłumaczenie modelów, ale to nam niewiele daje bo dalej mamy własne ograniczenia poznawcze
@agatanaw8510
2 жыл бұрын
@@pokropce1 & KajoData dziękuję za odpowiedź. Na pewno jest to ciekawe zagadnienie. Chociaż nie ukrywam, iż dla mnie zrozumienie w jaki sposób maszyny uczą się pisać algorytmów wydaje się abstrakcyjne. Chociaż wierzę że mają one wiele możliwości, które człowiekowi trudno osiągnąć. Jednak, Co do ludzkiego umysłu to będę go broniła, bo jest w nim wiele potencjału, tylko często nie potrafimy go wykorzystać, wystarczy spojrzeć na "Einsteina", "Edisona". Wydaje mi się, że na siłę próbujemy wpędzić nasze myślenie w schematy. No, ale to tylko moja subiektywna opinia. Ale jako potwierdzenie mojej teorii dodam przykład rywalizacji szachowej między komputerem a człowiekiem, Kasparow potrafił z nim wygrać. Więc jego myślenie nie mogło być, aż takie proste i schematyczne.
@pokropce1
2 жыл бұрын
@@agatanaw8510 Kasparow przegrał z komputerem w 1996 i od tego czasu ludzie już nie mają szans na wygraną w szachy. Z drugiej strony, obecne ML służą ku temu, aby znaleźć zależności w danych - ale jeżeli czegoś w danych nie ma to komputer nie jest w stanie tego wytworzyć. Komputery nie są kreatywne. Czyli jak nauczymy model rozróżniać między psami i kotami, to będzie w stanie rozróżnić nowe psy i koty, których nigdy nie widział, ale nie będzie wiedział co zrobić jak zobaczy nowe zwierze. Człowiek jest w stanie stwierdzić - jest to nowe zwierzę, którego nigdy nie widziałem. Tak samo z przewidywaniem przyszłości - na podstawie danych historycznych model jest w stanie znaleźć wzorce i przewidzieć powtarzające się sytuacje, ale nie jest w stanie przewidzieć sytuacji, której nikt się nie spodziewał. Człowiek dalej odgrywa ogromną rolę w tworzeniu modeli - dokładność modelu poprawia się przede wszystkim przy tworzeniu nowych danych przez ludzi - np. jeżeli dam szerokość i długość geograficzną do wyceny nieruchomości to model będzie miał prawdopodobnie gorszy wynik niż jak dodam szerokość, długość i jeszcze dodatkowo ręcznie obliczę odległość w km od centrum miasta i to wszystko razem wrzucę do modelu. Niby to jest taka sama informacja i model mógłby sie jej nauczyć z szer/dł, ale mimo wszystko mu to pomoże
@rekinek8
2 жыл бұрын
Myślenie maszyn to po prostu "skrót myślowy" 🙂 Jak dla mnie myślenie to zdolność do abstrakcyjnego przetwarzania informacji do czego maszyny nie są zdolne. Dlatego to ludzie tworzą a nie maszyny, które odtwarzają.
@Rafa-jj7ym2 жыл бұрын
Jak zaprezentować swoje umiejętności z zakresu analizy danych, jeżeli nie ma się zbytnio doświadczenia, ale ma się jakieś umiejętności? Bo programista może wrzucić swój kod na githuba i nikogo nie obchodzi, że nie pracował przy front endzie, ważne że ma skille nawet jak robił hobbystycznie. A analityk? Ma wrzucić przykładowe zapytania SQL? Xd albo spreadsheet z budżetu domowego czy jakiegoś swojego trackera fitness?
@kajodata
2 жыл бұрын
Tak, można wrzucać SQL na Github, ja to sprawdzam na rekrutacjach na przykład i jest duży plus jak ktoś ma. Excela też można wrzucić, ale to raczej poglądowo by ktoś sobie pobrał. Rozważyłbym pobawienie się pythonem (Jupyter Notebooks) albo, i tu jest duuuuuża przestrzeń do popisu Tableau Public. Poza tym - LinkedIn. Warto dzielić się po prostu wiedzą tipami i to też zostanie zauważone, chociażby przez rekruterów.
@robertmazurowski5974 Жыл бұрын
Jakie problemy ma Data Scientist? Czy kupic lambo, Merca czy tesle. :D
@kajodata
Жыл бұрын
Hmmm. Może naprawdę najlepsi-najlepsi. To jeszcze nie jest tak, że to są pensje jak np. dla znanych piłkarzy.
@robertmazurowski5974
Жыл бұрын
@@kajodata najlepsi 20k+, Często przedsiębiorcy z milionowymi biznesami nie zarabiają tyle na swoje konto. Oczywiscie to pisze żartobliwie.

Pytam Machine Learning Engineer o Data Science i analizę danych | Wywiad z Kasią Dyl cz. 1

Пікірлер: 39

@kajodata

Ай бұрын

@majinkaras

Ай бұрын

@kajodata

2 жыл бұрын

@rafalg8575

2 жыл бұрын

@kajodata

2 жыл бұрын

@CrappyData

2 жыл бұрын

@CrappyData

2 жыл бұрын

@kajodata

2 жыл бұрын

@kajodata

2 жыл бұрын

@CrappyData

2 жыл бұрын

@kajodata

2 жыл бұрын

@CrappyData

2 жыл бұрын

@CrappyData

2 жыл бұрын

@kajodata

2 жыл бұрын

@CrappyData

2 жыл бұрын

@kajodata

2 жыл бұрын

@stworzonabybiec1

2 жыл бұрын

@stworzonabybiec1

2 жыл бұрын

@CrappyData

2 жыл бұрын

@kajodata

2 жыл бұрын

@pokropce1

2 жыл бұрын

@agatanaw8510

2 жыл бұрын

@pokropce1

2 жыл бұрын

@rekinek8

2 жыл бұрын

@kajodata

2 жыл бұрын

@kajodata

Жыл бұрын

@robertmazurowski5974

Жыл бұрын

Келесі