Pokazywanie 4 Wynik(i)

Zaawansowana inżynieria cech, czyli jak zmaksymalizować potencjał swoich danych?

Dziś omówię często niedoceniany temat w procesie budowy modelu uczenia maszynowego, jakim jest zaawansowana inżynieria cech (feature engineering). Na pewno wielu z nas słyszało o tym pojęciu. Jest ono zwykle omawiane podczas studiów lub popularnych kursów. Jednak z mojego doświadczenia wynika, że kiedy tworzymy praktyczne projekty ML, to często nie poświęcamy należytej uwagi odpowiedniemu przygotowaniu …

Budowa zbioru danych – najlepsze praktyki

Wprowadzenie Dziś zajmiemy się tematem zbierania danych. Jest to ważny element w pracy analityka danych, czy Machine Learning Engineera. Od tego, jakie i ile danych zbierzemy nie tylko zależy to, jakie modele będziemy w stanie wytrenować, ale przede wszystkim poprawność i użyteczność całego rozwiązania. Dlatego warto temu tematowi poświęcić odpowiednio dużo uwagi. Jak do tego …

ai generated, systems analyst, consultant-8211245.jpg

6 inspiracji do stawiania hipotez w Data Science

W literaturze z Data Science możemy znaleźć sporo artykułów, które opisują, jak z technicznego punktu widzenia robić eksploracyjną analizę danych (EDA). Zwykle jednak brakuje informacji, skąd brać inspiracje do stawiania hipotez w takiej EDA. Dlatego w tym wpisie chciałbym się podzielić przemyśleniami, jak można podejść do szukania takich inspiracji. Jak zwykle, będę w znacznej mierze …

whiteboard, man, presentation-849812.jpg

Jak w 2 minuty analizuję dowolne dane tabelaryczne?

Dzisiaj przedstawię, jak w prosty i szybki sposób można przeanalizować (niemal) dowolne dane tabelaryczne za pomocą Jupyter notebooka i biblioteki Pandas profiling w Pythonie. Niezależnie, co jest celem naszej predykcji, przed zbudowaniem jakiegokolwiek modelu Machine Learning potrzebujemy przeanalizować dane. Załóżmy, że mamy dane w postaci tabelarycznej w jednej tabeli, gdzie w wierszach są poszczególne elementy …