data_science

Репозиторий для учебных и pet проектов data science.

1. Определение эффективности очистки золотоносной руды

Задачи
Построить модель, прогнозирующую концентрацию золота после проведения процесса очистки руды.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy
Ключевые навыки
Исследовательский анализ данных, заполнение пропусков во временных рядах с помощью аппроксимации B-сплайнами, кастомные метрики, исключение мультиколлинеарных признаков по VIF критерию, оптимизация линейной регрессии по кол-ву признаков.
Описание
Необходимо построить модель машинного обучения для компании, разрабатывающей решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

2. Оптимизация энергопотребления при плавке стали

Задачи
Построить модель, прогнозирующую температуру готовой стали.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lightgbm, xgboost, catboost
Ключевые навыки
Предобработка данных, исследовательский анализ данных, формирование таблицы признаков на основе теоретических представлений, исключение мультиколлинеарных признаков по VIF критерию, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, линейная регрессия, бустинги.
Описание
Для оптимизации расходов металлургического комбината необходимо снизить энергопотребление этапа обработки стали. Для такого снижения есть технологические предпоссылки. При производстве стали с нужными характеристиками в исходную расплавленную руду, состав которой может зависеть от партии, в несколько итераций добавляются легирующие добавки, удаляются вредные примеси, проводится химический анализ состава, между итерациями расплав дополнительно подогревается, и не редко подогрев оказывается избыточным. Таким образом, энергопотребление можно снизить за счёт модели, способной прогнозировать финальную температуру расплава.

3. Прогноз количества заказов такси

Задачи
Построить модель, прогнозирующую количество заказов такси.
Сферы деятельности
Бизнес, интернет-сервисы
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, statsmodels, lightgbm, xgboost, catboost
Ключевые навыки
Формирование таблицы потенциально влияющих признаков на основе предварительного анализа данных, кроссвалидация с учетом специфики временных рядов, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, экспоненциальные модели, модель SARIMAX, линейная регрессия, бустинги.
Описание
Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания.

4. Анализ влияния лечения на выживаемость пациентов с лейкозом

Задачи

Выяснить является ли эффект лечения статистически значимым.
Выявить факторы, влияющие на выживаемость.
Оценить масштаб влияния факторов на выживаемость с помощью модели Кокса.

Сферы деятельности
Медицина, промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lifelines
Ключевые навыки
Предварительный анализ цензурированных данных средствами описательной статистики анализа выживаемости, формулировка гипотез, тестирование гипотез, выявление значимых влияющих на целевой параметр факторов, оценка масштаба их влияния с помощью непараметрической модели Кокса.
Описание
В данном проекте проведём исследовательский анализ выживаемости пациентов по широко известному датасету влияния лечения на пациентов с острым лейкозом (Freireich et al. Blood 21(1963): 699-716). При анализе будем применять инструменты описательной статистики, тестировать гипотезы, исследовать влияние факторов на выживаемость с помощью полупараметрической модели Кокса.

5. Рекомендательная система маркетплейса

Задачи

Разработать рекомендательную систему для маркетплейса с 3 млн. объектов с метрикой accuracy@5 не менее 70%.
Упаковать рекомендательную систему в приложение.

Сферы деятельности
Маркетинг, поисковые системы, онлайн-кинотеатры, бизнес

Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, faiss, catboost, time

Описание
База данных товаров маркетплейса (https://disk.yandex.ru/d/BBEphK0EHSJ5Jw) содержит почти 3 млн. позиций и 72 столбца - признака в численном виде. Часть данных размечена наиболее близким объектом к данному - рекомендацией. Необходимо разработать рекомендательную систему.

Name		Name	Last commit message	Last commit date
Latest commit History 48 Commits
energy_consumption_efficiency		energy_consumption_efficiency
gold_recovery_efficiency		gold_recovery_efficiency
leukemia_remission_analysis		leukemia_remission_analysis
recommendation_system		recommendation_system
taxi_demand_forecast		taxi_demand_forecast
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data_science

1. Определение эффективности очистки золотоносной руды

2. Оптимизация энергопотребления при плавке стали

3. Прогноз количества заказов такси

4. Анализ влияния лечения на выживаемость пациентов с лейкозом

5. Рекомендательная система маркетплейса

About

Releases

Packages

Languages

takra/data_science

Folders and files

Latest commit

History

Repository files navigation

data_science

1. Определение эффективности очистки золотоносной руды

2. Оптимизация энергопотребления при плавке стали

3. Прогноз количества заказов такси

4. Анализ влияния лечения на выживаемость пациентов с лейкозом

5. Рекомендательная система маркетплейса

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages