Python数据分析基础 — 数据可视化(第2版)

王斌会 王术 电子工业出版社 2021.1

习题4

一、选择题

1:D 2:A 3:A 4:D 5:A 6:C 7:D

二、计算题

(请在问题下面的空白框写出代码并执行以输出结果)

  1. 调查数据。某公司对财务部门人员是否抽烟进行调查,结果为:否,否,否, 是,是,否,否,是,否,是,否,否,是,是,否,是,否,否,是,是。

(1)请用value_count函数统计人数,并绘制条图,按颜色区分是否。

(2)请用自定义函数tab生成频数表和频数图。

  1. 工资数据。上述企业财务部员工的月工资数据如下:

2050,2100,2200,2300,2350,2450,2500,2700,2900, 2850,3500,3800,2600,3000,3300,3200,4000,3100,4200,3500。

(1)试用mean、median、var、sd函数求数据的均值、中位数、方差、标准差。

(2)绘制该数据的散点图和直方图,应用hist函数构建自己的计量频数表函数。

(3)请用自定义函数freq生成频数表和频数图。

  1. 经理年薪。收集某沿海发达城市2015年66个年薪超过10万元的公司经理的收入(单位:万元)为

11,19,14,22,14,28,13,81,12,43,11,16,31,16,23,42,22,26,17,22, 13,27,108,16,43,82,14,11,51,76,28,66,29, 14,14,65,37,16,37,35,39,27,14,17,13,38,28,40,85,32,25,26,16,120,54,40,18,27,16,14,33,29,77,50,19,34

(1)可以对这些薪酬的分布状况作何分析?

对于这些年薪的分布状况,可以对其平均数、中位数、方差、标准差进行统计分析,也可以制作频数分布表、分布图分析。

(2)试通过编写计算基本统计量的函数来分析数据的集中趋势和离散程度。

(3)试分析为何该数据的均值和中位数差别如此之大,方差、标准差在此有何作用?

如何正确分析该数据的集中趋势和离散程度?

该数据的均值与中位数差别较大的原因是:这66个经理的年薪中,有几个经理年薪值较大,从而提高了平均年薪水平。方差与标准差反映了66个经理年薪偏离平均年薪的程度较大,因此本题中平均年薪并不能准确反映66个经理年薪的一般水平。故在该数据中,可以通过年薪的中位数27万元来反映集中程度,通过极差、四分位差等反映其离散程度,较为可靠。

(4)绘制该数据的散点图和直方图。

(5)请用自定义函数freq生成频数表和频数图。