Skip to content

takra/data_science

Repository files navigation

data_science

Репозиторий для учебных и pet проектов data science.

Задачи
Построить модель, прогнозирующую концентрацию золота после проведения процесса очистки руды.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy
Ключевые навыки
Исследовательский анализ данных, заполнение пропусков во временных рядах с помощью аппроксимации B-сплайнами, кастомные метрики, исключение мультиколлинеарных признаков по VIF критерию, оптимизация линейной регрессии по кол-ву признаков.
Описание
Необходимо построить модель машинного обучения для компании, разрабатывающей решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Задачи
Построить модель, прогнозирующую температуру готовой стали.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lightgbm, xgboost, catboost
Ключевые навыки
Предобработка данных, исследовательский анализ данных, формирование таблицы признаков на основе теоретических представлений, исключение мультиколлинеарных признаков по VIF критерию, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, линейная регрессия, бустинги.
Описание
Для оптимизации расходов металлургического комбината необходимо снизить энергопотребление этапа обработки стали. Для такого снижения есть технологические предпоссылки. При производстве стали с нужными характеристиками в исходную расплавленную руду, состав которой может зависеть от партии, в несколько итераций добавляются легирующие добавки, удаляются вредные примеси, проводится химический анализ состава, между итерациями расплав дополнительно подогревается, и не редко подогрев оказывается избыточным. Таким образом, энергопотребление можно снизить за счёт модели, способной прогнозировать финальную температуру расплава.

Задачи
Построить модель, прогнозирующую количество заказов такси.
Сферы деятельности
Бизнес, интернет-сервисы
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, statsmodels, lightgbm, xgboost, catboost
Ключевые навыки
Формирование таблицы потенциально влияющих признаков на основе предварительного анализа данных, кроссвалидация с учетом специфики временных рядов, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, экспоненциальные модели, модель SARIMAX, линейная регрессия, бустинги.
Описание
Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания.

Задачи

  1. Выяснить является ли эффект лечения статистически значимым.
  2. Выявить факторы, влияющие на выживаемость.
  3. Оценить масштаб влияния факторов на выживаемость с помощью модели Кокса.

Сферы деятельности
Медицина, промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lifelines
Ключевые навыки
Предварительный анализ цензурированных данных средствами описательной статистики анализа выживаемости, формулировка гипотез, тестирование гипотез, выявление значимых влияющих на целевой параметр факторов, оценка масштаба их влияния с помощью непараметрической модели Кокса.
Описание
В данном проекте проведём исследовательский анализ выживаемости пациентов по широко известному датасету влияния лечения на пациентов с острым лейкозом (Freireich et al. Blood 21(1963): 699-716). При анализе будем применять инструменты описательной статистики, тестировать гипотезы, исследовать влияние факторов на выживаемость с помощью полупараметрической модели Кокса.

Задачи

  1. Разработать рекомендательную систему для маркетплейса с 3 млн. объектов с метрикой accuracy@5 не менее 70%.
  2. Упаковать рекомендательную систему в приложение.

Сферы деятельности
Маркетинг, поисковые системы, онлайн-кинотеатры, бизнес

Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, faiss, catboost, time

Описание
База данных товаров маркетплейса (https://disk.yandex.ru/d/BBEphK0EHSJ5Jw) содержит почти 3 млн. позиций и 72 столбца - признака в численном виде. Часть данных размечена наиболее близким объектом к данному - рекомендацией. Необходимо разработать рекомендательную систему.

About

Data science projects

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published