Pierwsze kroki w Data Science

Dzisiejszy wpis kieruję do tych, którzy chcą zacząć swoją przygodę z Data Science lub rozważają taką możliwość.

Powiem Ci w nim:

  • Czym jest praca w Data Science?
  • Jakie umiejętności są potrzebne?
  • Jak zdobyć te umiejętności?
  • Jak zyskać pierwszą pracę.

Czym jest praca w Data Science?

Przez Data Science (stanowisko nazywane Data Scientist) rozumiem budowanie różnego rodzaju modeli na danych. W przeciwieństwie do stanowiska Analityka Danych, tutaj nie tylko wykorzystujemy narzędzia do prostych analiz i wizualizacji (jak Power BI), ale przede wszystkim korzystamy z języków programowania, takich jak Python czy R, które dają dużo większe możliwości.

Celem nie jest tutaj tylko znajdowanie ciekawych wzorców, czy trendów w danych, ale przede wszystkim tworzenie modeli, które pozwalają na przewidywanie różnych wartości, optymalizację, czy automatyzację różnych działań człowieka.

Jakie umiejętności są potrzebne?

Główną technologią jest tutaj zwykle programowanie w Pythonie lub (rzadziej) w R i umiejętność wykorzystania odpowiednich bibliotek.

Typowe biblioteki w Pythonie to:

  • NumPy – do obliczeń matematycznych, działań na wektorach czy na macierzach,
  • Pandas – do analizy danych tabelarycznych,
  • scikit-learn – do budowania wielu różnych modeli uczenia maszynowego,
  • Matplotlib – do wykresów i wizualizacji,
  • TensorFlow / PyTorch – do bardziej zaawansowanego uczenia maszynowego i głębokiego uczenia.

Aby stosować te biblioteki potrzebujesz znać działanie podstawowych algorytmów uczenia maszynowego (ML), takich jak regresje, sieci neuronowe, czy lasy losowe.

Potrzebujesz znać również podstawy statystyki i rachunku prawdopodobieństwa. Z mojego doświadczenia wystarczy tutaj podstawowa znajomość (np. czym jest rozkład prawdopodobieństwa, jakie są najczęstsze rozkłady, czy czym jest pochodna i jakie są pochodne najczęstszych funkcji). W większości będzie to wiedza na poziomie matematyki rozszerzonej ze szkoły średniej.

Do tego dochodzi podstawowa znajomość baz danych (SQL) na potrzeby wyciągania danych do analizy, a także podstawy technologii informatycznych, takich jak git, Linux oraz Jupyter Notebooks.

Jak się uczyć Data Science?

W zależności od Twojego budżetu, ilości dostępnego czasu, samodzielności i samodyscypliny, możesz podejść do tego na różne sposoby:

1. Studia Data Science na uczelni

To najbardziej czasochłonne podejście, jednocześnie najbardziej dogłębne. Moim zdaniem zwykle tylko studia dzienne mają sens, gdyż możemy się wówczas całkowicie poświęcić wybranej dziedzinie. Jednym z najlepszych wyborów w Polsce jest Uniwersytet Warszawski, kierunek Machine Learning.

2. Data Science Bootcamp

Są to zwykle kilkumiesięczne programy, w trybie weekendowym lub wieczorowym, często online, zawierające kompleksowe pokrycie najpopularniejszych tematów. Na rynku polskim mamy kilka popularnych tego typu ofert. Ich cena oscyluje w granicach kilkunastu tysięcy złotych. Wymagają dość dużej regularności i dużej ilości czasu. Często oferują pomoc w znalezieniu pierwszej pracy.

3. Kurs online z Data Science

Tutaj wykupujesz dostęp do nagranych materiałów online. Takie kursy możesz realizować w dowolnym dla Ciebie czasie, zawierają one zwykle od kilku do kilkudziesięciu godzin nagrań.

Popularne są kursy na platformie Coursera lub Udemy, które zwykle stanowią dobre, niezbyt kosztowne, wprowadzenie w temat. Ich cena zaczyna się od kilkudziesięciu złotych (są również darmowe kursy), lecz ich poziom bywa zróżnicowany. Mogę polecić kurs Specjalizacja Uczenia Maszynowego oraz Deep Learning ze Stanfordu.

To jest dobre, niskobudżetowe rozwiązanie, jeśli masz mocną motywację i zacięcie do nauki. Pamiętaj, że w tym podejściu może być trudno o pomoc, jeśli czegoś nie będziesz rozumieć, zwykle też nie ma prac domowych do praktycznej nauki (a na pewno nie są one sprawdzane przez prowadzącego kurs). Co więcej, samodzielnie musisz rozłożyć sobie materiał do nauki i znaleźć odpowiednie kursy (gdyż większość z nich pokrywa tylko część tematów).

4. Autorskie programy nauki Machine Learning

Są to kursy, które poza nagraniami, dają dostęp do prowadzącego i dodatkowych materiałów, grupy kursantów czy spotkań online. Takich programów nie ma wiele, przykładem jest mój program Machine Learning Mastery, gdzie przez intensywne 7 tygodni przechodzimy od powierzchownej do dogłębnej znajomości uczenia maszynowego. Dodatkiem są prace domowe sprawdzane przez prowadzącego, dzięki czemu możesz szybko się rozwijać, od razu wykorzystując wiedzę w praktyce. Spotkania live odbywają się w małych grupach, są prawie jak indywidualne konsultacje i mentoring.

Cena tego i podobnych programów to kilka tysięcy złotych, czyli kilkukrotnie mniej niż bootcamp, lecz więcej niż zwykłe kursy online.

5. Darmowe materiały w Internecie z Data Science

Pamiętaj, że w Internecie możesz znaleźć (prawie) wszystko 🙂 Więc tak naprawdę możesz nauczyć się:

  • Podstaw Pythona korzystając z darmowych tutoriali, na przykład takich jak ten.
  • Odpowiednich bibliotek korzystając też z tutoriali lub materiałów na Youtube.
  • Statystyki i matematyki przez odpowiednie książki / e-booki, polecany jest na przykład StatQuest.

Jest to z pewnością najtańsze rozwiązanie. Wymaga jednak najwięcej samodyscypliny, selekcji materiału, motywacji do nauki. Pomocne mogą być tutaj spotkania z mentorem, który wskaże odpowiednie materiały i odpowie na Twoje pytania.

Pamiętaj jednak, że jak najszybciej musisz robić własne projekty. Przewagą studiów, bootcampów czy autorskich programów jest to, że zwykle dostajesz tam odpowiedni projekt dostosowany do Twojego poziomu, który następnie jest oceniony przez doświadczoną osobę.

Jeśli uczysz się samodzielnie, możesz mieć trudniej ze znalezieniem takich projektów. Warto wówczas chociaż należeć do odpowiednich grup, na przykład Data Science PL, Machine Learning PL, czy Polish ML Community, w których możesz poprosić o pomoc.

Jak zyskać pierwszą pracę?

Uważam, że warto pracy szukać jak najwcześniej. Pamiętaj, że szukanie może Ci zająć wiele miesięcy, przez ten czas będziesz szlifować swoje możliwości i dostosowywać je do wymagań rynku. Będziesz widzieć też, na jakim etapie rekrutacji odpadasz i z jakich powodów, więc będziesz stopniowo poprawiać swe najsłabsze strony.

Na początku dobrze jest zorientować się w rynku, przeglądając takie portale jak https://justjoin.it/, https://nofluffjobs.com/ , czy LinkedIn. Oczywiście warto mieć dopracowany swój profil na LinkedIn i pokazać, że się jest otwartym na nowe możliwości.

Pamiętaj, że największym wyzwaniem jest zdobycie pierwszej pracy w branży. Dlatego warto być pomysłowym i wykorzystywać tutaj różne opcje:

  • Zgłaszanie się na bezpłatne staże – jeśli masz taką możliwość, warto napisać do różnych firm z pytaniem o bezpłatny staż. Nauczysz się wtedy dużo w praktyce, od doświadczonych osób.
  • Dostosowanie CV do oferty pracy – tutaj użyj czata GPT, żeby maksymalnie dostosować opis w CV do wymagań pracy i zwiększyć szansę na pozytywny odbiór.
  • Własne projekty i budowanie swojej bazy kodu open source, np. w GitHub. Zawsze będziesz lepiej postrzegany na rynku, jeśli będziesz mieć już zrealizowane projekty (nawet jeśli były tylko dla siebie).

Podsumowanie

Data Science to piękna dziedzina i zdecydowanie polecam ten kierunek. Pamiętaj jednak, że wszystko, co wartościowe, wymaga wysiłku. Dlatego nie zrażaj się, jeśli Ci nie wychodzi nauka lub nie możesz znaleźć pracy. Jeśli mogę Ci jakoś pomóc lub masz pytania, napisz do mnie na adam.dobrakowski@praktycznyml.pl . Jeśli chcesz pogłębić temat pracy w Data Science, to zapraszam do mini-kursu “Kariera w Data Science”. A jeśli chcesz uczyć się Data Science ode mnie, to zapraszam do mojego programu Machine Learning Mastery.