如何进行论文数据分析?
一篇学术论文的分析大致由三部分组成:
第一是理论基础。经济学、管理学等学科的研究多是建立在特定的分析框架和理论基础上。前文已经探讨了如何提出理论问题并构建分析框架和模型。
第二是数据(或案例)。数据是论点的支撑,数据是科学分析的原材料。甚至可以说,研究因为有了良好的数据支撑,研究本身就已经成功了一半。来自现实世界的经验材料是进行经济学、管理学等学科研究的先决条件,研究材料的完整性和准确性也直接关系到研究结果的效度与信度。
第三是方法。狭义的方法是指如何处理数据的方法。在经济学、管理学等学科中常常指统计、计量、模拟、仿真等方法。广义的方法泛指以实践现象为研究起点的实证分析方法或以理论观点为研究起点的规范分析方法。
那么对于论文数据我们该如何进行准备和分析呢?

一、、如何准备数据?
针对研究的目标问题,研究者在建立分析框架、选择了理论基础和模型之后,下一步需要考虑的是如何收集所需的数据支撑。我们可以将支撑研究的数据分为数据型资料和案例型资料两类。
1、数据资料的获取
利用现成数据(二手数据)
现有的可供学术研究使用的数据库主要分为调查数据(Survey Data)和政府数据(Administration Data)。调查数据一般是高校、科研机构等基于特定目的开展调研所获得的数据资料。目前在经济学、管理学等相关学科中有一些常用的数据库资源(表1)。这类数据源多是微观层面的数据,比如个体、家庭、企业等主体的相关数据,具有大样本、多变量、长时段、严格的调查规程等特点。此类数据库能够帮助研究人员降低研究成本、提高研究效率、开拓研究思路等。
政府数据也是研究者获取实证数据的重要来源,如国家统计局的各类年鉴、人口或农业普查数据,此类数据以宏观数据为主。目前,我们可以非常便捷地从网络上获取此类数据。比较典型的数据源是CNKI中国经济社会大数据研究平台,该平台覆盖了我国所有国家级、省级及其主要地市级统计年鉴和各类部门统计资料,能够实现年鉴导航、报表在线生成、指标可视化、数据挖掘分析等功能。此外,国研网、搜数网等网站也提供宏观数据的在线检索与展示。
自建数据(一手数据)
研究者也可以根据研究目的收集一手数据。主要包括通过调查问卷收集、或者通过网络爬虫等软件收集等。
通过调查问卷获取实证研究所需数据是常见的数据获取方法。该方法最为重要的是保证数据的质量。需要从指标设计、抽样方法、样本容量、调查方法、问卷设计、组织计划与质量控制等方面增强调查数据的有效性和可信度。
运用网络爬虫技术对互联网的数据进行筛选和整理是建立研究数据集合的另一个重要方法。互联网数据涉及的样本量大,散落在不同的网页上且不断更新,此时可以通过爬虫技术来获取这些数据并整理成为研究所用的数据集合。

二、如何呈现数据分析结果?
1、尽可能使用图表
如果可以用图或表来呈现数据的话就用图或表,避免用文字对结果进行描述。确保每个图提供的信息都是清晰和真实可信的,图片表达简明扼要。图表使用的字体,标签和缩写都必须是一致的。数据少的用表好一些,数据多则使用图。趋势的比较用图比表格更适合一些。每个图形跟表格都应该有一个简短的说明,即使读者不看文章的内容,仅仅通过图表及其标注,也可以得到一些有用的信息。
2、不要重复呈现数据
不要在文中重复描述图表中列出的数据。研究结果只需要提及图表并对其内容给出一个尽可能简短的描述,而不是具体陈述它们的内容。另外,只选择与论文整体结论相关的信息。可以把不太重要的图表放到附录。但是,不要避讳添加负面的结果。
3、按一定顺序组织
可以按照方法介绍部分中描述的研究方案的顺序,或者从最重要到最不重要的顺序来组织这个部分的撰写。
4、避免在结果部分就开始解释
避免包含任何对方法的重复或对结果的解释。把解释留到论文的讨论部分——讨论部分的写作要达到展现数据(图表)和讲述(在文中描述结果)之间的良好平衡。