@2021- 版权所有:王斌会、王术 ~ Rstat@126.com ICP备案号:粤ICP备 2021111582 号


  【特别申明】


  • 本平台不收集用户任何数据,用户数据在自己电脑上本地运行,不上传到云端!

  • 当数据较少时,可直接复制电子表格数据到系统中
  • 数据较大时,调用相关数据文件(必须是xlsx格式)

  • 如果示例数据或模版数据能打开和使用,说明系统可运行~
  • 这时自己数据不能打开,说明你的数据有问题(如定量数据为字符型等),请参考模板数据!
  本平台设计的初衷是针对非专业人士。介于Excel和SPSS,既有Excel数据操作的方便性,

又包含常用的大数据分析与预测决策功能。只要会Excel即可直观进行数据分析和统计建模。

当数据较少时,可直接复制电子表格数据到系统中,数据较大时,调用相关数据模板!

在电子表格中选取数据并复制:Ctrl+c —> 选择系统平台中第一格并粘贴:Ctrl + v

下载Excel数据模版 横向数据.xlsx

下载Excel数据模版 BDA.xlsx

当数据和变量较大时,请通过相应的Excel文档模板读取数据

下载并解压全部电子表格数据模版(*.xlsx) xlsx.zip


  王斌会:暨南大学管理学院教授,博士生导师。Rstat@126.com; 020-85220183

获广东省一流本科课程两门(2019、2022),国家一流精品在线课程1门(2020),第五届全国混合式教学设计大赛

一等奖(2023),第四届全国高校教学创新大赛一等奖(2024),为暨南大学“十佳优秀教师”(2020)、暨南大学

“杰出教学名师”(2023)。

暨南大学经济管理国家实验教学示范中心原主任,管理学院商业大数据分析中心主任。从事经济与管理教学和科研工作

30余年,在大数据分析和数字经济领域做了一些开创性的基础性工作。出版相关学术专著和教材15本,开发计算机软件

10余套,精通大数据分析及商科实验教学平台的开发。


  王术:暨南大学伯明翰大学联合学院助理教授、青蓝学者。 shuwang@jnu.edu.cn

博士毕业于比利时列日大学 ( 与中国农业科学院联合培养,国家留学基金委资助公派留学 ),硕士毕业于英国伦敦大学

国王学院数据科学专业。研究领域为农业、环境与能源经济,聚焦于农业废弃物利用、生物质能源利用、生物企业战略

发展和耕地生态评价及数据科学等交叉学科的研究。发表SCI及中文期刊十余篇,其中第1作者SCI一区论文5篇(分别发表

于本专业国际顶级期刊)。参与导师重要课题多项,具有丰富项目管理经验。参与各种学术会议和技术服务项目10余项,

编写并出版教材3部,掌握计算机编程语言与软件开发能力,精通R语言和Python数据分析。

ResearchGate: https://www.researchgate.net/profile/Shu-Wang-129?ev=hdr_xprf



ClassDA


BigDa


soft

@ 使用难易程度:Excel < BDA < SPSS < Stata < R < Python < SAS < C (C++) 功能强大程度



详见2.3.2定性汇总



详见2.3.4定量描述

DataType

 详细分析见 2.2.1 基本统计图


  在数据分析中,指标体系的构建最为重要,是分析问题的前提。构建指标体系基本原则如下:

  (1)系统全面性原则;(2)稳定可比性原则;(3)简明科学性原则;(4)灵活可操作性原则

  下面以粤港澳大湾区经济运行指标体系构建为例做以简单介绍:

zbtx

  本例的研究区域是粤港澳大湾区11个城市,时间跨度为2001~2020年。以2001年作为起始点,

是考虑到澳门特别行政区1999年回归祖国,数据有一定的时滞性。数据主要来自《广东省统计年鉴》、

《香港统计年刊》、《澳门统计年鉴》和政府统计处网站等获取。由于香港、澳门的统计数据独立于

其他九个城市,部分绝对指标的计量单位为当地货币,在收集数据时,采用《统计年鉴》中平均年度

汇率进行折算,以确保同一指标计量单位一致。

数据收集范围:

  • 按时间:20年(2001-2020)
  • 按地区:11个地区(9+2:珠三角9个城市+香港、澳门)
        广州, 深圳, 珠海, 佛山, 惠州, 东莞, 中山, 江门, 肇庆, 香港, 澳门

数据的性质与类型:

  • 性质:

    定性数据(计数数据):如地区、年份等
    定量数据(计量数据):如GDP、进出口额等

  • 类型:

    横向数据:如由大湾区11个地区12个指标构成的数据框
    纵向数据:如广州或深圳等地区20年12个指标构成的数据框
    面板数据:如由大湾区11个地区20年12个指标构成的数据框

Excel

由于不同数据需不同分析方法,我们对不同数据建立相应xlsx文档,可在相关界面下载

xlsx








                  


             标准正态分布N(0,1)曲线下面积(概率):横坐标为正态分位数







                    



                      
一、均值的抽样分布

   标准正态分布 z ~ N(),1),t分布 t ~ t(n-1)


二、方差的抽样分布

(1)卡方分布 chi2(n-1)

(2)F分布 F ~ F(n1-1,n2-1)



                    

                    



                    







                              



                            


                    
 *可编辑或复制数据到此:第1列为两分类变量,第2列为计量变量。注意,这里只能做两分类变量的检验!


                      




                            

     这里检验水平(显著性水平) α = 0.05,置信水平为 0.95





                              

    这里检验水平(显著性水平) α = 0.05



 这里的线性模型为:

  y = a + bx + e

 其中 x ~ U[0,1]

 误差 e ~ N(0,s^2)






                      
 *这里第1列为因变量(y),第2列为自变量(x),也可复制(Crtl+c)并粘贴(Crtl+v)其他表格数据到此


                    




 *这里第1列为因变量(y),第2列为自变量(x),也可复制(Crtl+c)并粘贴(Crtl+v)其他表格数据到此



                    
 *注意:这里的数据须全为定量变量!





                    



                    





                    

 *注意:这里第1列通常为时间,第2列须为定量数据!可复制数据到表格中

                    

 *注意:这里第1列通常为季度,第2列须为定量数据!

observed: 原始数据,trend: 趋势数据,seasonal: 周期变动,random: 随机误差


                    









                        

                        

 *注意:这里指标须为【date,open,high,low,close,volume】格式

                  
【日收益率】
【月收益率】


【年收益率】


 *注意:这里第1列为标识变量,其他列须为定量变量
      前2个变量的散布图

 距离矩阵(前9个样品)


                  

聚类中心(means)


                  

                  
 *注意:这里第1列为标识变量,其他列须为定量变量


【文本挖掘】

  文本数据挖掘是指从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。从这个意义上讲,文本数据挖掘是数据挖掘与分析的一个分支。文本挖掘利用智能算法,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。


 详见:文本挖掘系统(右击鼠标并在新窗口或新标签中打开~)


  网络爬虫又称网页蜘蛛或网络机器人,它按照一定的规则,自动抓取网络中的信息。它是一个自动提取网页的程序, 为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。

 详见:网络数据爬取系统(右击鼠标并在新窗口或新标签中打开~)