粤港澳大湾区经济运行大数据分析云计算平台
推进粤港澳大湾区建设,是以习近平同志为核心的党中央作出的重大决策,是新时代推动
形成全面开放新格局的新举措,也是推动“一国两制”事业发展的新实践。
本项目应用大数据、云计算等技术,从文本数据挖掘、数据的可视化分析、数据分布特征
进行研究、模型预测和综合评价等四个维度对粤港澳大湾区的经济运行情况进行了系统的分析
和评价,使人们深入了解粤港澳大湾区的发展现状及对我国经济的重要作用。
@2019- 版权所有:王斌会 ICP备案号:粤ICP备 2021111582 号
项目目标
改革开放以来,特别是香港、澳门回归祖国后,粤港澳合作不断深化实化,粤港澳大湾区经济实力、区域竞争力显著增强,已具备建成国际一流湾区和世界级城市群的基础条件。同时产生了大量的经济管理数据,如何对这些海量的数据和信息进行有效管理,以及如何从这些海量的数据中得出有用的信息已经成为我们各行业无论是管理者还是从业者的迫切需求。如何使学生能身临其境的认识粤港澳大湾区在全球所处的位置,在世界大湾区中的经济地位,如面积、人口、GDP、人均GDP和GDP增速等。同时为了让学生全面了解粤港澳大湾区11个地区的经济发展现状和经济运行情况,我们就需借助大数据分析技术对粤港澳大湾区经济数据进行全面分析和预测,进而为管理者提供决策建议。
项目意义
打造粤港澳大湾区,建设世界级城市群,有利于丰富“一国两制”实践内涵,进一步密切内地与港澳交流合作,为港澳经济社会发展以及港澳同胞到内地发展提供更多机会,保持港澳长期繁荣稳定;有利于贯彻落实新发展理念,深入推进供给侧结构性改革,加快培育发展新动能、实现创新驱动发展,为我国经济创新力和竞争力不断增强提供支撑;有利于进一步深化改革、扩大开放,建立与国际接轨的开放型经济新体制,建设高水平参与国际经济合作新平台;有利于推进“一带一路”建设,通过区域双向开放,构筑丝绸之路经济带和21世纪海上丝绸之路对接融汇的重要支撑区。古人云:“凡事预则立,不预则废”,“人无远虑,必有近忧”。了解和掌握粤港澳大湾区经济发展和运行状况对推进粤港澳大湾区建设具有十分重要的现实意义和深远的历史意义。
项目的必要性
大数据分析实验教学在培养学生的实践能力、研究能力、创新能力和综合素质等方面有着其他教学环节所不能替代的独特作用,是学科专业与信息技术深度融合的产物。本项目利用我们自主研发的《粤港澳大湾区经济运行大数据分析虚拟仿真实验教学》平台,使用大湾区真实的经济数据,通过模拟和仿真大湾区场景,让学生从实验中能够更加深刻地学习、理解和运用理论知识,真正做到理论和实际相结合,同时提高学生的实际动手能力,为社会培养更多的复合型、创新型人才。 本项目从文本数据的挖掘、数据的可视化分析、数据的统计分析及模型建立和预测及管理决策等维度对粤港澳大湾区经济运行情况进行系统的分析和评价,使学生深入了解粤港澳大湾区的发展现状及其对我国经济的影响。
项目的先进性
本项目利用我们自主研发的《粤港澳大湾区经济运行大数据分析虚拟仿真实验教学》平台,使用大湾区真实的经济数据,通过模拟和仿真大湾区场景,让学生从实验中能够更加深刻地学习、理解和运用理论知识,真正做到理论和实际相结合,同时提高学生的实际动手能力,为社会培养更多的复合型、创新型人才。本实验通过对粤港澳大湾区真实场景的模拟,使学生对粤港澳大湾区地理位置和环境有一个基本了解。应用大数据和云计算及机器学习技术,通过对大湾区真实数据的仿真,使学生对大湾区经济发展有一个全面了解。在交互式操作方面,让学生自主操作和分析大湾区的经济运行现状。

(1)世界湾区情况
世界著名的湾区经济有纽约湾区、东京湾区、旧金山湾区、伦敦港、悉尼湾区等。其中,名列“世界三大湾区”的是经济实力最强的旧金山湾区,东京湾区和纽约湾区。以纽约湾、旧金山湾、东京湾为代表,“湾区经济”已成为带动全球经济发展的重要增长极和引领技术变革的领头羊。作为湾区中的新军,粤港澳大湾区也开始成为世界经济版图中的一个亮点,还被视为除上述三大湾区以外,未来全球经济的第四个增长极。
(2)世界湾区特点
粤港澳大湾区包括香港特别行政区、澳门特别行政区和广东省广州市、深圳市、珠海市、佛山市、惠州市、东莞市、中山市、江门市、肇庆市(称珠三角九市),总面积5.6万平方公里,2017年末总人口约7000万人,是我国开放程度最高、经济活力最强的区域之一,在国家发展大局中具有重要战略地位。
陆地面积:56500km²;建成区:5275km²;地均GDP:0.24亿美元/km²;人口密度:1212人/km²;人均GDP:2万美元 。
旧金山湾区是“高科技湾区”,以环境优美、科技发达著称。拥有世界知名的硅谷以及以斯坦福、加州大学伯克利分校为代表的20多所著名科技研究型大学。这里同时也是谷歌、苹果、英特尔、Facebook、Tesla、Nvidia、Gilead、Uber等科技巨头企业全球总部所在地。旧金山湾区人口超过700万,其中高科技人员约200多万,是世界各地科技精英聚集地,华人70多万。
陆地面积: 17400km²;建成区:3909km²;地均GDP:0.45亿美元/km²;人口密度:425人/km²;人均GDP:10.5万美元。
纽约湾区是“金融湾区”。美国的纽约湾区是世界的金融中心,其金融业、奢侈品业和都市文化都具有世界性的影响力。华尔街是世界金融的心脏,拥有纽交所和纳斯达克交易所。美国7大银行中的6家,世界金融、证券、期货及保险和外贸机构等近3000家机构总部也设于此。全美最大的500家公司,⅓以上的总部设在纽约湾区,堪为“金融湾区”。
陆地面积:21500km²;地均GDP:0.74亿美元/km²;人口密度:1088人/km²;人均GDP:6.8万美元。
东京湾区是“产业湾区”。日本的东京湾区聚集了日本⅓的人口,⅔的经济总量,¾的工业产值,成为日本最大的工业城市群和国际金融中心、交通中心、商贸中心和消费中心。东京湾沿岸有6个港口首尾相连,吞吐量超5亿吨。在庞大港口群的带动下,东京湾区逐步形成了京滨、京叶两大工业地带,钢铁、石油化工、现代物流、装备制造和游戏动漫、高新技术等产业十分发达。同时该区域也是三菱、丰田、索尼等一大批世界五百强企业的总部所在地。
陆地面积:13600km²;建成区:5038km²;地均GDP:0.49亿美元/km²;人口密度:1191人/km²;人均GDP:4.1万美元。

指标体系的构建原则
数据集通常由一个或多个指标组成。在现实生活中,对一些事物的分析和评价常常涉及多个指标,评价是在多个指标相互作用下的一种综合判断。在多个变量分析中,指标体系的构建是最重要的问题,是综合评价能否准确反映全面情况的前提。构建多变量指标体系应遵循以下几项原则:
(1)系统全面性原则
例如,在经济社会发展水平的评价中,综合评价指标体系必须能够较全面地反映经济社会发展的综合水平,指标体系应包括经济水平、科技进步、社会发展等各个主要方面的内容。
(2)稳定可比性原则
评价指标体系中选用的指标既要有稳定的数据来源,又要适应实际状况,指标体系的统计口径(包括指标的时长、单位、含义)必须一致可比,才能保证评估结果的真实、客观和合理。
(3)简明科学性原则
在系统全面性的基础上,尽量选择具有代表性的综合指标,要避免选择含义相近的指标。指标体系中指标的多少须适宜,指标体系的设置应具有一定的科学性,既简明又科学。
(4)灵活可操作性原则
评价指标体系在实际应用中应具有一定的灵活性,以方便各地区不同发展水平、不同层次评价对象的操作使用。各个指标的数据来源渠道要畅通,具有较强的操作性。
本项目的研究区域是粤港澳大湾区11个城市,时间跨度为2001~2020年。以2001年作为时间的起始点,是考虑到澳门特别行政区1999年回归祖国。考虑到数据具有一定的时滞性,故选择2001年作为研究的起点。本文的数据主要从《广东省统计年鉴》、《香港统计年刊》、《澳门统计年鉴》、澳门统计暨普查局数据库、香港政府统计处网站等获取。由于香港、澳门的统计数据独立于其他九个城市,部分绝对指标的计量单位为当地货币,本文在收集数据时,本项目采用《统计年鉴》中的平均年度汇率进行折算,以确保同一指标计量单位一致。
数据收集范围:
- 按时间:20年(2001-2020)
- 按地区:11个地区(9+2:珠三角9个城市+香港、澳门)
广州, 深圳, 珠海, 佛山, 惠州, 东莞, 中山, 江门, 肇庆, 香港, 澳门
数据的类型与格式:
- 类型:
定性数据(计数数据):如地区、年份、性别等
定量数据(计量数据):如GDP、进出口额、人均消费、身高和体重等
- 格式:
横向数据(也称横截面数据): 如由大湾区11个地区12个指标构成的数据框
纵向数据(也称时间序列数据): 如广州20年12个指标构成的数据框
面板数据(横向和纵向数据组合):如由大湾区11个地区20年12个指标构成的数据框
数据的组成形式:
- 向量(一维数组):分别由单个指标组成的一组数,如地区、GDP等。
- 数据框(二维数组):由行和列组成的数据集,相当于矩阵,但其中的数据类型可不一样。
传统数据通常以结构化形式保存,本系统以开放式电子表格形式保存数据(如Excel或WPS表格),
比关系数据库操作容易和操作。
一、空间横向数据比较
在固定时间(年份)情况下,对各地区空间(地区)数据进行可视化直观分析,即对2001-2020年粤港澳大湾11个地区经济信息进行可视化分析。 所用的可视化工具包括:柱状图、饼图、漏斗图、统计地图等。 (1)统计地图:统计地图是统计图的一种。以地图为底本,用各种几何图形、实物形象或不同线纹、颜色等表明指标的大小及其分布状况的图形。它是统计图形与地图的结合,可以突出说明某些现象在地域上的分布,可以对某些现象进行不同地区间的比较,可以表明现象所处的地理位置及与其他自然条件的关系等。统计地图,有点地图、面地图、线纹地图、彩色地图、象形地图和标针地图等。树形地图是统计地图的一种表现形式。 (2)柱状图:柱状图又称条形图或条图,是以宽度相等的条形高度或长度的差异来显示统计指标数值多少或大小的一种图形。柱形图简明、醒目,是一种常用的统计图形。 (3)饼图及玫瑰图:饼图也称圆图,是由一个圆或多个扇形组成,每个扇形显示不同颜色。每个扇形的角度大小可显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据点显示为整个饼图的数值或百分比。玫瑰图是饼图的一种。
二、时间序列数据比较
在固定空间(地区)情况下,对各时段(年份)数据进行可视化直观分析,即对粤港澳大湾11个地区2001-2020年经济信息进行可视化分析。所用的可视化工具包括:线图、线条图、面积图、极坐标图等。 (1)线图:线图也称折线图,是类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布的线状图形。 (2)线条图:该图是线图和条图的复合形式。 (3)面积图 :面积图又称区域图,强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。堆积面积图和百分比堆积面积图还可以显示部分与整体的关系。
三、面板数据动态比较
面板数据的可视化即是横向数据可视化和纵向数据可视化的组合形式。
一、绝对动态数列
把一系列同类的总量指标按时间先后顺序排列而形成的动态数列,称为绝对数动态数列或绝对增长量,说明事物在一定时期所增加的绝对数量。可分别计算累计增长量和逐期增长量。
(1)定基增长量 报告期指标与某一固定期(基期水平)指标之差,也称累计增长量(简称定基数)。
$$ 定基数 = a_i - a_1 $$
$$ 式中,a_i 为第i期指标,a_1 为第1期(基期)指标。$$
(2)环比增长量 报告期的指标与前一期指标之差,也称逐期增长量(简称环基数或环比数)。
$$ 环基数= a_i - a_{i-1} $$
$$ 式中,a_i为第i期指标,a_{i-1} 为第i-1期指标。$$
二、相对动态数列
把一系列同类的相对指标数值按时间先后顺序排列而形成的动态数列,称为相对数动态数列。它可以用来说明社会现象间的相对变化情况。
(1)定基发展速度(定基比) 统一用某个时间的指标做基数,以各时间的指标与之相比。
$$ 定基比 = 100*a_i/a_1 $$
$$式中,a_i 为第i期指标,a1 为第1期(基期)指标。$$
(2)环比发展速度(环基比) 以前一时间的指标做基数,以相邻的后一时间的指标与之相比。
$$ 环基比 = 100*a_i/a_{i-1} $$
$$式中,a_i为第i期指标,a_{i-1} 为第i-1期指标。$$
数据选取
图形显示
数据选取
图形显示
数据选取
图形
数据选取
图形显示
数据选取
图形显示
数据变动图
动态统计量
一、基本统计量
(1)次序统计量:把指标数据X1,X2,…,Xn由小到大排列,得到X(1),X(2),…,X(n),称之为数据X1,X2,…,Xn的次序统计量。 (2)平均统计量:对于数值型数据,需计算它们的平均水平,用来描述平均水平或集中趋势的主要统计量有均值、中位数等。 (3)变异统计量:反映各数据值变异程度的指标称为变异统计量。它显示变量数值分布的离散趋势,是用来表现数据特征的另一个重要指标,与平均统计量的作用相辅相成。共同反映一组数据的平均水平和变异程度。变异指标包括以下几种:极差、标准差、四分位差等。 (4)差异统计量:当进行两个或多个指标变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较;如果单位或均数不同,比较其变异程度就不能采用标准差,而要采用标准差与均数的比值(变异系数)来比较。
对于正态分布数据,通常计算变异系数来比较变量间的差异程度。对非正态分布数据,通常不能用变异系数来比较变量间的差异程度,需计算其稳健变异系数(四分位差与中值的比值称为稳健变异系数,简称稳健系数)。
二、 基本统计图
(1)直方图:用于表示连续型变量的频数分布,常用于考察变量的分布是否服从某种分布类型,如正态分布。图形以矩形的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(或等于1)。当例数趋于无穷大时,直方图中频率间的连线即为分布的密度曲线。 (2)箱线图:又称为箱式图或箱形图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和上下两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。 (3)Q-Q图:统计学里的分位数图(Quantile Quantile Plot,简称 Q-Q 图)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。如令x轴为正态分布的分位数,y轴为样本分位数,如果这两者构成的点分布在一条直线上,就证明样本数据与正态分布存在线性相关性,即服从正态分布。
基本统计推断
推断就是根据拥有的信息来对现实世界进行某种判断。统计中的推断也不例外,它是完全根据数据做出的。
(1)参数估计
由样本统计量来估计总体参数有两种方法:点估计和区间估计。
(2)假设检验
- 假设检验是用来判断样本与总体的差异是由抽样误差引起还是由本质差别所造成的统计推断方法。主要包括参数检验和非参数检验。
- 常见参数检验包括与正态总体有关的t检验、F检验等。非参数检验通常是将数据转换成秩来进行分析的,主要有秩和检验等。
年份:横向数据统计量
地区:纵向数据统计量
一、线性相关分析
相关分析指通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式。 在经济管理中,各经济变量常常存在密切的关系,如经济增长与财政收入、人均收入与消费支出等。 相关分析以现象之间是否相关、相关的方向和密切程度等为主要研究内容,其主要分析方法有绘制相关图、计算相关系数和检验相关系数。
(1)相关系数的计算
- 在实际应用中,通常要计算样本的线性相关系数(pearson相关系数correlation coefficient) $$r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2\sum(y-\bar{y})^2}}$$
(2)相关系数的检验
- 与其他统计量一样,样本相关系数也有抽样误差。即从同一总体内抽取若干大小相同的样本,各样本的相关系数总有波动。
- 要判断不等于0的相关系数r值是来自总体相关系数的总体,还是来自的总体,必须进行显著性检验。
- 相关系数r的检验步骤:
建立检验假设: $$H_0:\rho=0, H_1:\rho\not=0, \alpha=0.05$$
计算相关系数r的t值 $$t_{r}=\frac{r-\rho}{s_{r}}=\frac{r}{\sqrt{(1-r^2)/(n-2)}}$$
计算p值,得出结论。
- 如果p<0.05,说明两变量有线性相关关系。
- 如果p>0.05,说明两变量无线性相关关系。
二、线性回归分析
- 回归分析研究的是变量间的依存关系,变量区分为自变量(也称解释变量)和因变量(也称被解释变量),并研究确定自变量和因变量之间具体关系的方程形式。
- 其中以一条直线方程表明两变量依存关系的模型叫作简单线性回归分析模型(也称直线回归模型)。
- 回归分析的主要步骤包括建立回归模型、求解回归模型中的参数、对回归模型进行检验等。
- 在因变量y和自变量x的散点图中,如果趋势大致呈直线型,即 $$y = \beta_0+\beta_1x + e$$
- 则可拟合一条直线方程,这里e为误差项(error),相应直线回归模型为(消除误差项影响) $$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x=a+bx$$
- 用于估计a与b的方法称为普通最小二乘方法(OLS)。 $$b=\frac{\sum\limits^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits^n_{i=1}(x_i-\bar{x})^2}=\hat{\beta}_1$$ $$a=\bar{y}-b\bar{x}=\hat{\beta}_0$$
一、趋势模型类型
趋势模型通常有一次模型(直线:y = a+bx)、对数模型(对数曲线:y = a+blogx)、指数模型(指数曲线:y=aexp(bx)和幂函数模型(幂函数曲线:y=ax^b)等。
二、模型选择准则
(1)根据以上模型,可分别建立各自转化后的趋势模型。
(2)分析各模型的检验值,看各方程是否达到显著。
(3)比较模型直线化后两变量的相关系数r值大小,r值越大,表示经该变换后,线性趋势关系越密切;选取r值最大的模型作为最优化模型。
三、机器学习技术
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 本实验采用的机器学习技术就是让计算机自动从这些模型中选取最优的模型。
四、趋势模型预测
模型预测是一种利用统计模型推测事物未来发展状况的定量预测方法。
数据选择
直线回归模型
数据选择
机器学习的最佳模型为:
曲线回归模型
参数选择
相关分析
相关系数图
矩阵散点图
参数选择
自变量(Xi)
回归分析
模型图示
【系统聚类分析方法】
一、基本概念
- 聚类分析(cluster analysis)是研究“物以类聚”的一种现代统计分析方法,聚类分析的基本原则是将有较大相似性的对象归为同一类,而将差异较大的个体归入不同的类。
二、聚类统计量
- 设 \(x_{ij}(i=1,2,\ldots,n;j=1,2,\ldots,p)\) 为第i个样品的第j个指标的观测数据。即每个样品有p个变量,则每个样品都可以看成$p$维空间中的一个点,n个样品就是p维空间中的n个点,定义 \(d_{ij}\) 为 \(x_i\) 样品与 \(x_j\) 的距离。
- 聚类分析中最常用的计算样品间距离的方法是欧氏距离(Euclidean) \(d_{ij}=[\sum\limits_{k=1}^p(x_{ik}-x_{jk})^2]^{1\over 2}\)
三、聚类分析方法
- 确定了距离后就要进行分类,分类有许多种方法,最常用的一类方法是在样品距离的基础上定义类与类之间的距离,首先将n个样品分成n类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程作成一张聚类图,由聚类图可方便地进行分类。因为聚类图类似于一张系统图,所以这类方法就称为层次聚类法(hierachical clustering method)。
四、聚类分析过程
- (1) 计算n个样品两两间的距离 \(d_{ij}\) ;
- (2) 构造n个类,每个类只包含一个样品;
- (3) 合并距离最近的两类为一新类;
- (4) 计算新类与当前各类的距离,若类个数为1,转到步骤(5),否则回到步骤(3);
- (5) 画聚类图;
- (6) 决定类的个数和类。
【基本综合评价方法】
一、单指标分析
- 如果对单个指标数据进行评价,通常只需计算其次序统计量和秩次。这里说的秩次即序数。是一组数据排序后对应的位置次序。如有以下一组数字:1,3,5,9,7,4。将它们排序后对应的秩次就是:1,2,4,6,5,3。
- 如要对粤港澳大湾经济发展数据进行单变量综合分析,可对各指标进行编秩排名,由于这时是秩次,故可直接对其进行比较评价。
- 但该方法不适于对多变量数据进行综合排序,因为数据之间单位和量纲有可能不同,无法直接相加,故而也就无法进行综合评价。要对指标进行综合评价,需首先对数据进行无量纲化。
二、数据无量纲化
-
虽然本实验的所有变量都是数值数据,但显然这些变量的单位和量纲还是不同的,通常需要将它们进行无量纲化转换。观测指标的无量纲化指通过某种变换方式消除各个观测指标的计量单位,使其统一、可比的变换过程。把数据无量纲化之后,在纵向上数据对比清晰,便于理解分析。
-
这里我们采用规范化法对数据进行无量纲化处理,公式为:
$$z_{ij}=\frac{x_{ij}-min(x_{ij})}{max(x_{ij})-min(x_{ij})}$$
- 这种无量纲方法的好处是,它不仅在纵向上消除了不同指标的不同数量级的影响,在横向上还能使得各地区的得分处于0~100之间,易于比较。
三、综合指数的计算
- 这里我们使用综合评分法来计算粤港澳大湾区经济运行的综合指数,该方法比较简单,实际上就是算每个地区13个规范化数据的算术平均值,即把各指标的规范化数据直接相加,得到一个总分,然后除以指标个数,最后根据这个平均得分的高低来判定评价地区经济运行的状况。 $$S_i=\sum\limits_{j=1}^mw_jz_{ij}=\sum\limits_{j=1}^m\frac{1}{m}z_{ij}=\frac{1}{m}\sum\limits_{j=1}^mz_{ij}$$