七一社区        注册

基于回归方程的中国农村收入差距的分解——兼论教育对收入差距的影响

曲直 吕之望

2014年05月12日13:45   来源:国家行政学院学报

二、模型设计和数据的统计描述

1.模型和方法

为了进行收入差距的分解,必须先得到一个农户级别的人均纯收入方程,为了体现在一个时间段内不平等指标的连续变化情况,我们采用了面板数据(panel)模型,农户人均纯收入函数为:

LnYit=α+∑βiXit+uit(1)

其中,Y表示经过消费价格指数消胀的家庭人均年收入;X1表示家庭总人口,用来代表家庭的规模经济,由于被解释变量是家庭人均收入,是否将家庭的总人口作为解释变量存在争议,这里我们采用了Wan(2004)中的做法,希望把家庭常住人口放进模型,以控制家庭类型;X2表示家庭的人均劳动力人口,等于家庭劳动力数与家庭总人口数的比值,这个变量是以往文献中“人口负担率”的倒数。而“人口负担率”这个变量在以往的文献中的收入方程中大多显著为负,因此我们预测X2的系数为正;X3表示家庭中非农就业劳动力占总劳动力的比例,一般的经验是农村中从事非农产业的劳动力比例更多会引起家庭收入的增加,因此我们预测这个变量的系数为正;X4表示家庭人均耕地面积,系数理应为正;X5表示调查年份下家庭的人均资本投入;X6表示劳动力平均受教育年限;按照人力资本理论,人力资本的边际报酬递减,因此有必要往模型中加入X7,以表示劳动力平均受教育年限的平方(以下X9同理);X8表示劳动力的平均年龄;X9表示劳动力平均年龄的平方,按照人力资本的边际报酬递减规律,我们预测X6和X8的系数为正,X7和X9的系数为负;X10表示各个省份经济状况的变量,本文采用樊纲和王小鲁主编的《中国市场化指数——各地区市场化相对进程报告》中给出的各省相应年份的市场化指数分别表示。

当然,按照各项收入不平等的相对指标(Gini系数、Thei-L、Theil-T)进行收入差距的夏普里值分解时需要的并非收入的对数形式,而是采用的收入的原始形式,因此我们真正进行分解的方程应该还原为:

Yit=exp(α+∑βiXit)(2)

对模型进行了拟合之后能够得到yit=∑βiXit。

我们将基尼系数按集中率(Concentration Index) 的分解公式应用于 (2) 式的两边, 则有G (Y) =[∑E(Xi)/E(Y)]C(Xi),其中C表示集中率,E表示各变量的期望。但是很容易发现这样的简单处理忽略掉了残差项的作用,这会导致分解的结果的解释力存在很大的问题。

Shorrocks(1999)提出的方法可以确定残差项的作用,令(2)中的残差项等于0,则有Y(e=0)=y,G[Y(e=0)]=G(y),则我们可以定义ε对G(Y)的贡献率为:

COε=G(Y)-G(y)(3)

这样的定义合理的地方在于,虽然Y和y的期望是一样的,但是由于残差项的存在,使得G(Y)≠G(y),一方面是因为我们的模型中残差项的期望虽然等于零,但是由于残差项的波动性,导致在更多的时候Y≠y,另一方面是因为我们在计算基尼系数的过程中有一个按照变量由小到大的排序过程,由于残差项的存在,使得Y和y的排序可能出现差异, 这两方面的作用导致G(Y)与G(y)区别可能相当大。

这样,按照(3)去除了残差项的影响,而G(y)与 G(Y)的比值就是我们将模型进行不平等分解之后对总体不平等程度的解释力度。

然后,我们只需要对模型中的βiXi进行集中率的处理就能得到Xi对y的不平等的贡献程度。当然,每种不平等指标的计算方式是不同的,常见的进行夏普里值分解的不平等指标有Gini、Theil-L、Theil-T和Atkinson。

当然在更多的情况下,上面对模型的假设是难以实现的,首先是常数项问题,在较早的研究中,Shorrocks(1999)也曾提出了对常数项处理的方法,但是后来学术界对这种常数项的处理方式引起了争议,究竟常数项是否影响总体不平等指数仍旧存在争议,其次是模型的线性问题,在更多的情况下经济模型是非线性模型,但是我们可以对非线性模型进行对数化或其他线性化处理,这点假设不影响我们的分析。

为了规避常数项的问题,我们借鉴了Wan(2004)基于对数收入方程进行了收入不平等指数的分解的方法。这样处理的好处在于将对数形式的预测收入还原为原始收入之后,常数项就成为影响收入大小的一个倍数,不再影响收入差距。因此本文中的农户人均纯收入模型采用的是半对数模型。

2.数据的统计描述

本文的数据来自于中国健康营养调查(CHNS)此调查由北卡罗来纳大学和中国疾病预防控制中心合作完成。该调查范围涉及全国不同地理位置、经济发展程度、公共资源水平以及健康水平的9个省份,分别是辽宁、黑龙江、江苏、山东、河南、湖北、湖南、广西和贵州。这9个省份比较有代表性地表现了中国东中西三大地区的农民生活和收入状况,也为我们的研究提供了较有力的数据支持。,我们选取了2000年、2004年和2009年的农村收入家庭调查数据,并将其整理为了一套面板数据。

需要说明的是,部分变量并不能从CHNS数据中直接获得,需要利用近似指标代替或通过相关计算获得。本文模型中的家庭劳动力人口数用家庭中年龄大于等于16岁并且非残疾的人口数表示,因此模型(1)中的X2为家庭中年龄大于16岁并且非残疾的人口数与家庭总人口数的比值;家庭资本投入为多个变量之和,包括房租、购房支出、购买机械、家用电器等固定资产支出等,以这些变量之和与家庭总人口的比值作为人均资本投入变量。

通过对CHNS原始数据的整理,我们得到了一套样本量为1754的农民家庭情况的面板数据,其中相关收入和资本数据我们已用2009年的价格指数进行了去胀。数据包含153户辽宁农户,216户黑龙江农户,180户江苏农户,170户山东农户,210户河南农户,222户湖北农户,100户湖南农户,242户广西农户,261户贵州农户。样本在这九个省份中的分布比较均匀。


使用微信“扫一扫”功能添加“学习微平台”
(责编:实习生、谢磊)
  • 最新评论
  • 热门评论
查看全部留言

热点关键词