Przewidywanie wynagrodzeń w branży IT (Artificial Intelligence)
O projekcie
Celem projektu jest analiza czynników wpływających na wysokość wynagrodzenia w sektorze Artificial Intelligence oraz budowa modelu regresyjnego szacującego roczne zarobki. Zbiór danych zawiera informacje o ofertach pracy z całego świata, uwzględniając wymogi techniczne, lokalizację, poziom stanowiska oraz profil pracodawcy.
Zbiór danych
Dane użyte w projekcie pochodzą z serwisu Kaggle:
AI and Data Science Job Market Dataset 2020-2026
- Liczba instancji (rekordów): 10 345
- Liczba atrybutów: 19 (w tym zmienna docelowa)
Atrybuty
- job_id - unikalny identyfikator oferty pracy
- job_title - nazwa stanowiska (np. Data Scientist, AI Engineer)
- company_size - wielkość przedsiębiorstwa (Startup, Medium, itp.)
- company_industry - branża firmy (np. Technology, Finance)
- country - kraj zatrudnienia
- remote_type - tryb pracy (Remote, Hybrid, Onsite)
- experience_level - poziom stanowiska (Entry, Mid, Senior)
- years_experience - wymagana liczba lat doświadczenia
- education_level - wymagane wykształcenie (Bachelor, Master, PhD)
- skills_python - wymóg znajomości języka Python (1 - tak, 0 - nie)
- skills_sql - wymóg znajomości SQL (1 - tak, 0 - nie)
- skills_ml - wymóg znajomości Machine Learning (1 - tak, 0 - nie)
- skills_deep_learning - wymóg znajomości Deep Learning (1 - tak, 0 - nie)
- skills_cloud - wymóg znajomości chmury (1 - tak, 0 - nie)
- job_posting_month - miesiąc publikacji ogłoszenia
- job_posting_year - rok publikacji ogłoszenia
- hiring_urgency - pilność zatrudnienia (Low, Medium, High)
- job_openings - liczba dostępnych wakatów w ramach ogłoszenia
- salary - roczne wynagrodzenie w USD (zmienna docelowa)
Typ problemu i modelowanie
Projekt rozwiązuje problem regresji, gdzie zmienną docelową jest przewidywanie wartości ciągłej salary (rocznego wynagrodzenia).
Do trenowania i ewaluacji zostaną użyte dwa algorytmy:
- Linear Regression (Regresja Liniowa) – prosty model liniowy, który posłuży jako punkt odniesienia (baseline).
- Random Forest Regressor (Model Lasu Losowego) – nieliniowy model zespołowy, który powinien lepiej uchwycić skomplikowane zależności między zmiennymi a wysokością wynagrodzenia.