数据分析流程案例:社考数据分析
当前位置:首页 > 数据分析
数据分析流程案例:社考数据分析

蝈蝈

2022/9/28 22:46:42

数据分析流程

数据分析流程一般分以下几个步骤:

1、数据的获取
2、读取原数据
3、查看数据概况
4、查看异常数据
5、查看最大/小值or查看top/lastest值
6、查看相关性
7、可视化分析plotly

各种历史版本的anaconda下载:https://repo.anaconda.com/archive/



【本案例的数据获取】

以下数据来自于某次社会考试,请分析这次考试的一些情况,如男女比例、生源分布、年龄分布等。 数据格式为txt,如下:

460020199304200403 , 第01考场
460000199804070201 , 第01考场
46002019970824000x , 第02考场
460020199702036809 , 第02考场
469020199806232002 , 第02考场

.。。。。。

数据脱敏:

  • import pandas as pd
    path = r"c:\Users\yubg\Desktop\data.txt"
    data = pd.read_table(path,header=None)
    sfz = data[0].astype(str).to_list()
    sfz = [i[0:5]+"0"+i[6:15]+"0"+i[-2:] for i in sfz]

  • data["sfz"] = sfz #增加一列脱敏身份证号
    data = data.drop([0,1],axis=1) #data.drop([0,1],axis=1,inplace=True)
    data.to_csv(r"c:\Users\yubg\Desktop\data0.txt",encoding="utf8",sep="\t",header=0,index=0)

  • path = r"c:\Users\yubg\Desktop\data0.txt"
    pd.read_table(path,header=None)


具体的案例分析流程见:点击打开下载


【数据下载】社考数据下载:kaochang.txt|资源下载|_蝈蝈派教研网站 (pylab.club)





还可以输入200个字

蝈蝈派【海南省教改项目(Hnjg2022-80)支持】 网站版权所有

Python remained the copyright of our website

吉公网安备 22020402000437号

备案号:吉ICP备2020005062号-2

关注QQ群

了解Python

实时动态