数据分析流程一般分以下几个步骤:
1、数据的获取
2、读取原数据
3、查看数据概况
4、查看异常数据
5、查看最大/小值or查看top/lastest值
6、查看相关性
7、可视化分析plotly
各种历史版本的anaconda下载:https://repo.anaconda.com/archive/
以下数据来自于某次社会考试,请分析这次考试的一些情况,如男女比例、生源分布、年龄分布等。 数据格式为txt,如下:
460020199304200403 , 第01考场
460000199804070201 , 第01考场
46002019970824000x , 第02考场
460020199702036809 , 第02考场
469020199806232002 , 第02考场.。。。。。
数据脱敏:
import pandas as pd
path = r"c:\Users\yubg\Desktop\data.txt"
data = pd.read_table(path,header=None)
sfz = data[0].astype(str).to_list()
sfz = [i[0:5]+"0"+i[6:15]+"0"+i[-2:] for i in sfz]
data["sfz"] = sfz #增加一列脱敏身份证号
data = data.drop([0,1],axis=1) #data.drop([0,1],axis=1,inplace=True)
data.to_csv(r"c:\Users\yubg\Desktop\data0.txt",encoding="utf8",sep="\t",header=0,index=0)
path = r"c:\Users\yubg\Desktop\data0.txt"
pd.read_table(path,header=None)
【数据下载】社考数据下载:kaochang.txt|资源下载|_蝈蝈派教研网站 (pylab.club)
还可以输入200个字
蝈蝈派【海南省教改项目(Hnjg2022-80)支持】 网站版权所有
Python remained the copyright of our website