Zaawansowana inżynieria cech, czyli jak zmaksymalizować potencjał swoich danych?

Dziś omówię często niedoceniany temat w procesie budowy modelu uczenia maszynowego, jakim jest zaawansowana inżynieria cech (feature engineering). Na pewno wielu z nas słyszało o tym pojęciu. Jest ono zwykle omawiane podczas studiów lub popularnych kursów. Jednak z mojego doświadczenia wynika, że kiedy tworzymy praktyczne projekty ML, to często nie poświęcamy należytej uwagi odpowiedniemu przygotowaniu …

Pierwsze kroki w Data Science

Dzisiejszy wpis kieruję do tych, którzy chcą zacząć swoją przygodę z Data Science lub rozważają taką możliwość. Powiem Ci w nim: Czym jest praca w Data Science? Przez Data Science (stanowisko nazywane Data Scientist) rozumiem budowanie różnego rodzaju modeli na danych. W przeciwieństwie do stanowiska Analityka Danych, tutaj nie tylko wykorzystujemy narzędzia do prostych analiz …

10 nieoczywistych rzeczy, które musisz logować po wdrożeniu Twojego modelu na produkcję

Wdrażanie modeli Machine Learning w środowisku produkcyjnym to duże wyzwanie, wymagające często niemniejszych wysiłków niż samo wytrenowanie modelu. W tym wpisie omówię jeden z kilku kluczowych aspektów, o który trzeba zadbać, a którym jest logowanie wszystich koniecznych informacji po wdrożeniu modelu. Kiedy jesteśmy na etapie eksperymentów laboratoryjnych (tzw. offline), zwykle nie zastanawiamy się nad tym, …

Budowa zbioru danych – najlepsze praktyki

Wprowadzenie Dziś zajmiemy się tematem zbierania danych. Jest to ważny element w pracy analityka danych, czy Machine Learning Engineera. Od tego, jakie i ile danych zbierzemy nie tylko zależy to, jakie modele będziemy w stanie wytrenować, ale przede wszystkim poprawność i użyteczność całego rozwiązania. Dlatego warto temu tematowi poświęcić odpowiednio dużo uwagi. Jak do tego …

Planowanie projektów Machine Learningowych

Dziś chciałbym przedstawić Ci proces planowania projektów Machine Learning. Taki jaki stosujemy w mojej firmie COGITA. Jeśli jesteś zaangażowany projekty ML – czy to jako analityk, czy jako Data Scientist, to z pewnością albo bierzesz udział w tym procesie, albo w bliski sposób korzystasz z jego efektów. Dlatego zostań do końca tego artykułu, a na …

Kompromis pomiędzy czasem, jakością a zakresem w projektach ML

Dzisiaj przedstawię pewne podejście do projektów Machine Learning, które pozwoli Ci znacznie zwiększyć efektywność Twojej pracy. Chodzi o uświadomienie sobie trzech czynników, z których składają się prace w każdym projekcie. Są to: Zauważmy, że te czynniki są ze sobą ściśle związane: jeśli zwiększamy zakres projektu lub chcemy podnieść jakość wykonywanych prac, to rośnie czas potrzebny …

cyber, artificial intelligence, brain-4062449.jpg

Czy sztuczna inteligencja jest zagrożeniem dla ludzkości?

Wstęp Dziś wpis będzie mniej techniczny, a bardziej filozoficzny. Od kilku miesięcy temperatura dyskusji nad rozwojem i przyszłością sztucznej inteligencji bije kolejne rekordy i nic nie zapowiada jak na razie, by miała zacząć spadać. Mamy lato AI w pełni. Chciałbym w tym blogu zebrać moje aktualne przemyślenia na temat tego, z czym mamy do czynienia …

touch screen, finger, technology-6091015.jpg

Wszystko, co potrzebujesz wiedzieć o systemach rekomendacyjnych

Czy zastanawiasz się czasami, jak działają algorytmy, które wybierają dla Ciebie wyświetlaną reklamę? Albo dlaczego w mediach społecznościowych dostajesz akurat takie posty? Za te zadania odpowiadają systemy rekomendacyjne. W COGITA, firmie którą zarządzam, budowanie takich systemów to nasza specjalność. Dziś chciałbym Ci przekazać część naszej wiedzy, dzięki której jesteśmy w tym tak skuteczni. Podzielę się …

ai generated, systems analyst, consultant-8211245.jpg

6 inspiracji do stawiania hipotez w Data Science

W literaturze z Data Science możemy znaleźć sporo artykułów, które opisują, jak z technicznego punktu widzenia robić eksploracyjną analizę danych (EDA). Zwykle jednak brakuje informacji, skąd brać inspiracje do stawiania hipotez w takiej EDA. Dlatego w tym wpisie chciałbym się podzielić przemyśleniami, jak można podejść do szukania takich inspiracji. Jak zwykle, będę w znacznej mierze …

man, writing, laptop-2562325.jpg

A/B testy modelu ML (część 3). 4 typowe błędy w A/B testach.

Ten wpis to trzeci i ostatni z serii wpisów o A/B testach. Pozostałe to: Tutaj przedstawię Ci typowe błędy, z jakimi zmagają się nie tylko niedoświadczeni, ale nawet zaawansowani inżynierowie ML. Zazwyczaj w przeprowadzenie A/B testów zaangażowanych jest więcej osób. ML inżynierowie / analitycy danych, ale także osoby odpowiadające za wdrożenie lub działanie danego elementu …

analytics, charts, traffic-925379.jpg

A/B testy modelu ML (część 2). Najczęstsze trudności.

Ten wpis to drugi z serii trzech wpisów o A/B testach. Pozostałe to: Tutaj przedstawię Ci najczęstsze problemy, z jakimi spotkałem się, przeprowadzając rzeczywiste A/B testy oraz sposoby, które mam, żeby sobie z nimi poradzić. 1. Uzyskanie dwóch identycznych grup do testów Jak pisałem w poprzednim artykule, jeśli nasz model ML optymalizuje jakąś większą całość …

team, cooperation, planning-4503157.jpg

A/B testy modelu ML (część 1). Jak przygotować A/B testy?

Jeśli zajmujesz się dziedziną uczenia maszynowego, na pewno słyszałeś o testach A/B. Jest to najlepszy i najbardziej wiarygodny eksperyment, jaki możemy przeprowadzić, żeby potwierdzić dobre działanie naszego modelu. W tym wpisie powiem więcej, co to są A/B testy i z czego się składają. Jest to pierwszy z serii trzech wpisów w tym temacie. Kolejne to: …

man, work, desk-597178.jpg

Model benchmarkowy – dlaczego go potrzebujesz i jak go stworzyć?

Model benchmarkowy ogólnie to model, który jest używany do porównania wydajności innych modeli. Może to być model dotychczas najlepszy na danym zbiorze i celem jest pobicie jego wyników przez autorów nowej architektury. Jednak w tym artykule mam na myśli prosty model, który sam tworzysz, zaczynając pracę nad nowym projektem, który będzie punktem odniesienia przy dalszych …

whiteboard, man, presentation-849812.jpg

Jak w 2 minuty analizuję dowolne dane tabelaryczne?

Dzisiaj przedstawię, jak w prosty i szybki sposób można przeanalizować (niemal) dowolne dane tabelaryczne za pomocą Jupyter notebooka i biblioteki Pandas profiling w Pythonie. Niezależnie, co jest celem naszej predykcji, przed zbudowaniem jakiegokolwiek modelu Machine Learning potrzebujemy przeanalizować dane. Załóżmy, że mamy dane w postaci tabelarycznej w jednej tabeli, gdzie w wierszach są poszczególne elementy …

code, coding, computer-1839406.jpg

Moja ściąga z 17 komendami przydatnymi w projektach ML

Pracując od kilku lat przy różnych projektach Machine Learning, zacząłem budować “ściągę” z różnymi komendami. Większość z nich stosuje się na tyle rzadko, że trudno jest je zapamiętać. Z drugiej strony, kiedy jej nie miałem, łapałem się, że wielokrotnie wyszukuję te same rzeczy na Stacku. Chciałbym się podzielić z Tobą fragmentem mojej ściągi – może …

business, businessman, chair-1839191.jpg

6 powodów, dla których ważna jest interpretowalność modelu ML

Dlaczego dbanie o interpretowalność modelu jest tak ważne?Przedstawię dziś 6 powodów, z których część może Cię zaskoczyć. 1. Zaufanie do modelu i pewność, że robi on to, co miał robić. Pierwszym krokiem oceny jakości modelu jest odpowiednio zdefiniowana metryka (np. accuracy, F1 czy MAPE).Jednak metryka może być obliczona w niewłaściwy sposób lub może być nieinformatywna.Dlatego …