dat=['否','否','否','是','是','否','否','是','否','是','否','否','是','是','否','是','否','否','是','是'];
print(dat)

['否', '否', '否', '是', '是', '否', '否', '是', '否', '是', '否', '否', '是', '是', '否', '是', '否', '否', '是', '是']


import pandas as pd
pd.set_option('display.max_rows',10) 
dat=pd.DataFrame(dat,columns=['抽烟状况']);dat


dat1=dat.抽烟状况.value_counts();dat1

否    11
是     9
Name: 抽烟状况, dtype: int64


dat1.values

array([11,  9], dtype=int64)


import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'];
plt.rcParams['axes.unicode_minus']=False;
dat1.plot.bar(color=['blue','yellow']);


data22=pd.read_excel('PyDm_exer.xlsx','2.2');data22
data221=data22.酒类.value_counts();data221

1    20
3    16
2     8
4     6
Name: 酒类, dtype: int64


plt.pie(data221,labels=["红酒","白酒","黄酒","啤酒"]);


types=[1,2,3,4]
counts=[20,16,8,6]
data222=pd.DataFrame({'types':types,'counts':counts});data222


import numpy as np
def freq(X,bins=10):
    H=plt.hist(X,bins)
    a=H[1][:-1];a
    b=H[1][1:];b
    f=H[0];f
    p=f/sum(f)*100;p
    cp=np.cumsum(p);cp
    Freq=pd.DataFrame([a,b,f,p,cp])
    Freq.index=['[下限a','上限b)','频数f','频率p(%)','累计频数cp(%)']
    return(round(Freq.T,2))
freq(data22.酒类)


data23=pd.read_excel('PyDm_exer.xlsx','2.3');data23.head()


data23.月工资.mean()

2930.0


data23.月工资.median()

2875.0


data23.月工资.var()

406421.05263157893


data23.月工资.std()

637.511609801405


plt.scatter(data23.月工资.index,data23.月工资);


plt.hist(data23.月工资)

(array([3., 3., 2., 3., 2., 2., 2., 0., 1., 2.]),
 array([2050., 2265., 2480., 2695., 2910., 3125., 3340., 3555., 3770.,
        3985., 4200.]),
 <BarContainer object of 10 artists>)


import numpy as np
def freq(X,bins=10):
    H=plt.hist(X,bins)
    a=H[1][:-1];a
    b=H[1][1:];b
    f=H[0];f
    p=f/sum(f)*100;p
    cp=np.cumsum(p);cp
    Freq=pd.DataFrame([a,b,f,p,cp])
    Freq.index=['[下限a','上限b)','频数f','频率p(%)','累计频数cp(%)']
    return(round(Freq.T,2))
freq(data23.月工资)


data24=pd.read_excel('PyDm_exer.xlsx','2.4');data24


data24.年薪.mean()

33.27272727272727


data24.年薪.median()

27.0


data24.年薪.var()

574.6937062937063


data24.年薪.std()

23.972770100547546


plt.scatter(data24.年薪.index,data24.年薪);


plt.hist(data24.年薪)

(array([25., 17., 12.,  3.,  1.,  2.,  4.,  0.,  1.,  1.]),
 array([ 11. ,  21.9,  32.8,  43.7,  54.6,  65.5,  76.4,  87.3,  98.2,
        109.1, 120. ]),
 <BarContainer object of 10 artists>)


freq(data24.年薪)


#!pip install pydataset           #安装pydataset包


from pydataset import data        #加载pydataset包 
economics = data('economics')     #调用pydataset包中的数据框economics
economics.info()                  #显示数据

<class 'pandas.core.frame.DataFrame'>
Int64Index: 478 entries, 1 to 478
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   date      478 non-null    object 
 1   pce       478 non-null    float64
 2   pop       478 non-null    int64  
 3   psavert   478 non-null    float64
 4   uempmed   478 non-null    float64
 5   unemploy  478 non-null    int64  
dtypes: float64(3), int64(2), object(1)
memory usage: 26.1+ KB


economics['unemploy_pop']=economics['unemploy']/economics['pop']
print(economics)                  #显示数据

           date     pce     pop  psavert  uempmed  unemploy  unemploy_pop
1    1967-06-30   507.8  198712      9.8      4.5      2944      0.014815
2    1967-07-31   510.9  198911      9.8      4.7      2945      0.014806
3    1967-08-31   516.7  199113      9.0      4.6      2958      0.014856
4    1967-09-30   513.3  199311      9.8      4.9      3143      0.015769
5    1967-10-31   518.5  199498      9.7      4.7      3066      0.015369
..          ...     ...     ...      ...      ...       ...           ...
474  2006-11-30  9478.5  301070     -1.1      7.3      6849      0.022749
475  2006-12-31  9540.3  301296     -0.9      8.1      7017      0.023289
476  2007-01-31  9610.6  301481     -1.0      8.1      6865      0.022771
477  2007-02-28  9653.0  301684     -0.7      8.5      6724      0.022288
478  2007-03-31  9705.0  301913     -1.3      8.7      6801      0.022526

[478 rows x 7 columns]


plt.plot(economics['date'],economics['unemploy_pop']);


plt.plot(economics['date'],economics['unemploy']);


#将数据设置为pandas绘图格式
economics.set_index('date',inplace=True);print(economics)

               pce     pop  psavert  uempmed  unemploy  unemploy_pop
date                                                                
1967-06-30   507.8  198712      9.8      4.5      2944      0.014815
1967-07-31   510.9  198911      9.8      4.7      2945      0.014806
1967-08-31   516.7  199113      9.0      4.6      2958      0.014856
1967-09-30   513.3  199311      9.8      4.9      3143      0.015769
1967-10-31   518.5  199498      9.7      4.7      3066      0.015369
...            ...     ...      ...      ...       ...           ...
2006-11-30  9478.5  301070     -1.1      7.3      6849      0.022749
2006-12-31  9540.3  301296     -0.9      8.1      7017      0.023289
2007-01-31  9610.6  301481     -1.0      8.1      6865      0.022771
2007-02-28  9653.0  301684     -0.7      8.5      6724      0.022288
2007-03-31  9705.0  301913     -1.3      8.7      6801      0.022526

[478 rows x 6 columns]


economics['unemploy_pop'].plot();


economics['pop'].plot();

	月工资
0	2050
1	2100
2	2200
3	2300
4	2350

	[下限a	上限b)	频数f	频率p(%)	累计频数cp(%)
0	2050.0	2265.0	3.0	15.0	15.0
1	2265.0	2480.0	3.0	15.0	30.0
2	2480.0	2695.0	2.0	10.0	40.0
3	2695.0	2910.0	3.0	15.0	55.0
4	2910.0	3125.0	2.0	10.0	65.0
5	3125.0	3340.0	2.0	10.0	75.0
6	3340.0	3555.0	2.0	10.0	85.0
7	3555.0	3770.0	0.0	0.0	85.0
8	3770.0	3985.0	1.0	5.0	90.0
9	3985.0	4200.0	2.0	10.0	100.0

Python数据挖掘方法及应用¶

王斌会王术电子工业出版 2019.3¶

【第2章数据挖掘的分析基础】数据与练习2¶

（请在#下面问题的空白处写出代码并输出结果）¶

matplotlib 绘图¶

pandas 绘图¶

	[下限a	上限b)	频数f	频率p(%)	累计频数cp(%)
0	1.0	1.3	20.0	40.0	40.0
1	1.3	1.6	0.0	0.0	40.0
2	1.6	1.9	0.0	0.0	40.0
3	1.9	2.2	8.0	16.0	56.0
4	2.2	2.5	0.0	0.0	56.0
5	2.5	2.8	0.0	0.0	56.0
6	2.8	3.1	16.0	32.0	88.0
7	3.1	3.4	0.0	0.0	88.0
8	3.4	3.7	0.0	0.0	88.0
9	3.7	4.0	6.0	12.0	100.0

	[下限a	上限b)	频数f	频率p(%)	累计频数cp(%)
0	11.0	21.9	25.0	37.88	37.88
1	21.9	32.8	17.0	25.76	63.64
2	32.8	43.7	12.0	18.18	81.82
3	43.7	54.6	3.0	4.55	86.36
4	54.6	65.5	1.0	1.52	87.88
5	65.5	76.4	2.0	3.03	90.91
6	76.4	87.3	4.0	6.06	96.97
7	87.3	98.2	0.0	0.00	96.97
8	98.2	109.1	1.0	1.52	98.48
9	109.1	120.0	1.0	1.52	100.00

	types	counts
0	1	20
1	2	16
2	3	8
3	4	6

Python数据挖掘方法及应用¶

王斌会 王术 电子工业出版 2019.3¶

【第2章 数据挖掘的分析基础】数据与练习2¶

（请在#下面问题的空白处写出代码并输出结果）¶

matplotlib 绘图¶

pandas 绘图¶

王斌会王术电子工业出版 2019.3¶

【第2章数据挖掘的分析基础】数据与练习2¶