Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

salary数据利用的探讨 #44

Open
thirstylearning opened this issue Dec 5, 2023 · 5 comments
Open

salary数据利用的探讨 #44

thirstylearning opened this issue Dec 5, 2023 · 5 comments

Comments

@thirstylearning
Copy link

本周给出的数据预处理案例中,有一个salary字段,其内容只有抽象化处理的范围如low、medium、high,像此类数据一般就是作为分类的标签,来分析在不同收入标准下的各种情况,那是否可以将该字段转化为大致的数值来进行数值处理?此类数据是否有其他的利用方式?

@andyhuang18
Copy link
Collaborator

@thirstylearning 我觉得你的问题提得很好!在我个人看来,这个抽象化分组似乎是一个经过处理后的结果。因为每个职员的收入一般是不一样的,很可能会有很多数据的差异。所以我不推荐将其反向转化为大致的数值。就像我今天课上讲的购物平台顾客年龄这一栏,年龄分组后更容易体现数据价值。当然划分组的方法是多样的,最简单的是用规则的方法,也可以用聚类等机器学习算法。

@thirstylearning
Copy link
Author

@thirstylearning 我觉得你的问题提得很好!在我个人看来,这个抽象化分组似乎是一个经过处理后的结果。因为每个职员的收入一般是不一样的,很可能会有很多数据的差异。所以我不推荐将其反向转化为大致的数值。就像我今天课上讲的购物平台顾客年龄这一栏,年龄分组后更容易体现数据价值。当然划分组的方法是多样的,最简单的是用规则的方法,也可以用聚类等机器学习算法。

明白了,谢谢!

@ChicagoCubsOfficial
Copy link

@thirstylearning 我觉得你的问题提得很好!在我个人看来,这个抽象化分组似乎是一个经过处理后的结果。因为每个职员的收入一般是不一样的,很可能会有很多数据的差异。所以我不推荐将其反向转化为大致的数值。就像我今天课上讲的购物平台顾客年龄这一栏,年龄分组后更容易体现数据价值。当然划分组的方法是多样的,最简单的是用规则的方法,也可以用聚类等机器学习算法。

老师的意思是,这种差异很多的数据一般划分成像low,high这种或者简单用范围进行分类是比较简洁高效的吗

@andyhuang18
Copy link
Collaborator

@ChicagoCubsOfficial 数据的处理是多样的,分组处理数据相当于强化了组这个概念,但是弱化了组内的个体的概念。有时候需要取舍,如果分组后的数据更有利于问题的解决,那么就这样做;如果没有,那就要保持个体的特殊性。

@ChicagoCubsOfficial
Copy link

@ChicagoCubsOfficial 数据的处理是多样的,分组处理数据相当于强化了组这个概念,但是弱化了组内的个体的概念。有时候需要取舍,如果分组后的数据更有利于问题的解决,那么就这样做;如果没有,那就要保持个体的特殊性。

感谢老师,明白了!!!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants