import pandas as pd
pd.set_option('display.max_rows', 8)
dat=pd.read_excel('mydata1.xlsx','4.1');dat


dat1=dat.抽烟状况.value_counts();dat1

否    11
是     9
Name: 抽烟状况, dtype: int64


import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'];
dat1.plot.bar(color=['blue','yellow']);


def tab(x):
    f=x.value_counts();f
    s=sum(f);
    p=round(f/s*100,3);p
    T1=pd.concat([f,p],axis=1);
    T1.columns=['频数','构成比'];
    T2=pd.DataFrame({'频数':s,'构成比':100.00},index=['合计'])
    Tab=T1.append(T2)
    fig,ax=plt.subplots(1,2,figsize=(10,5))
    ax[0].bar(f.index,f);                           #条图
    ax[1].pie(p,labels=p.index,autopct='%1.2f%%');  #饼图
    return(round(Tab,3))


tab(dat.抽烟状况)


data42=pd.read_excel('mydata1.xlsx','4.2');data42


data42.月工资.mean()

2930.0


data42.月工资.median()

2875.0


data42.月工资.var()

406421.05263157893


data42.月工资.std()

637.511609801405


plt.scatter(data42.月工资.index,data42.月工资);


plt.hist(data42.月工资)

(array([3., 3., 2., 3., 2., 2., 2., 0., 1., 2.]),
 array([2050., 2265., 2480., 2695., 2910., 3125., 3340., 3555., 3770.,
        3985., 4200.]),
 <BarContainer object of 10 artists>)


import numpy as np
def freq(X,bins=10):
    H=plt.hist(X,bins)
    a=H[1][:-1];a
    b=H[1][1:];b
    f=H[0];f
    p=f/sum(f)*100;p
    cp=np.cumsum(p);cp
    Freq=pd.DataFrame([a,b,f,p,cp])
    Freq.index=['[下限a','上限b)','频数f','频率p(%)','累计频数cp(%)']
    return(round(Freq.T,2))

freq(data42.月工资)


data43=pd.read_excel('mydata1.xlsx','4.3');data43


data43.年薪.mean()

33.27272727272727


data43.年薪.median()

27.0


data43.年薪.var()

574.6937062937063


data43.年薪.std()

23.972770100547546


data43.年薪.max()-data43.年薪.min() #极差

109


data43.年薪.quantile(0.75)-data43.年薪.quantile(0.25) #四分位差

23.75


plt.scatter(data43.年薪.index,data43.年薪);   #散点图


plt.hist(data43.年薪)   #直方图

(array([25., 17., 12.,  3.,  1.,  2.,  4.,  0.,  1.,  1.]),
 array([ 11. ,  21.9,  32.8,  43.7,  54.6,  65.5,  76.4,  87.3,  98.2,
        109.1, 120. ]),
 <BarContainer object of 10 artists>)


freq(data43.年薪)     #用自定义函数freq生成频数表和频数图，形如4.2（3）

	月工资
0	2050
1	2100
2	2200
3	2300
...	...
16	4000
17	3100
18	4200
19	3500

	[下限a	上限b)	频数f	频率p(%)	累计频数cp(%)
0	2050.0	2265.0	3.0	15.0	15.0
1	2265.0	2480.0	3.0	15.0	30.0
2	2480.0	2695.0	2.0	10.0	40.0
3	2695.0	2910.0	3.0	15.0	55.0
...	...	...	...	...	...
6	3340.0	3555.0	2.0	10.0	85.0
7	3555.0	3770.0	0.0	0.0	85.0
8	3770.0	3985.0	1.0	5.0	90.0
9	3985.0	4200.0	2.0	10.0	100.0

	[下限a	上限b)	频数f	频率p(%)	累计频数cp(%)
0	11.0	21.9	25.0	37.88	37.88
1	21.9	32.8	17.0	25.76	63.64
2	32.8	43.7	12.0	18.18	81.82
3	43.7	54.6	3.0	4.55	86.36
...	...	...	...	...	...
6	76.4	87.3	4.0	6.06	96.97
7	87.3	98.2	0.0	0.00	96.97
8	98.2	109.1	1.0	1.52	98.48
9	109.1	120.0	1.0	1.52	100.00

Python数据分析基础 — 数据可视化（第2版）¶

王斌会王术电子工业出版社 2021.1¶

习题4¶

一、选择题¶

二、计算题¶

	频数	构成比
否	11	55.0
是	9	45.0
合计	20	100.0

Python数据分析基础 — 数据可视化（第2版）¶

王斌会 王术 电子工业出版社 2021.1¶

习题4¶

一、选择题¶

二、计算题¶

王斌会王术电子工业出版社 2021.1¶