Ⅰ. 서 론
부동산은 우리나라 경제에서 차지하는 비중이 크다. 통계청(2013)에 따르면 우리나라 가계 자산 중 부동산 등의 실물자산이 차지하는 비중이 73.3%로 금융자산 26.7%의 3배에 달하고 있다. 이러한 상황 속에서 부동산 시장의 관심도가 점점 높아지고 있다. 높아지는 관심에 따라 최근 부동산 가격은 꾸준히 상승하고 있다. 따라서 정부 정책 또한 부동산 거래 활성화와 더불어 서민주거안정에 초점을 맞추고 있으며, 소득수준이 점점 높아짐에 따라 거주를 목적으로 인간의 생활 터전으로써의 부동산에서 투자를 목적으로 수익을 창출하는 부동산까지 다양한 가치로 변하고 있다. 저금리가 이어지면서 수익을 목적으로 한 부동산의 투자가 늘어나면서 부동산 관련 통계가 더욱 주목 받고 있다. 현재 다양한 부동산 관련 통계자료가 쏟아지고 있는 가운데 한국감정원에서 발표하고 있는 주택가격통계인 전국주택가격동향조사(KHPI), 토지가격통계인 전국지가변동률조사 등 가격통계에 대한 국민의 관심도가 커지고 있다.
지리적 위치가 고정되어 있는 부동산은 입지 속성을 가지고 접근성에 따라서 용도가 결정되기 때문에 입지와 접근성에 대한 선호도를 유발하게 되고 그에 따른 가격을 형성하게 된다. 이러한 부동산의 속성 때문에 지역에 따라 가격의 차이가 발생하게 되고 이는 충분히 작은 소지역(small area)내에서도 그 영향을 미치게 된다. 앞서 말한 소지역이란 지리학적인 지역을 지칭하며 이러한 소지역내에서는 동일한 지리적, 사회적 특성을 지니고 있다. 예를 들어 동일한 소득수준이 구분되어 지는 읍면동이나 명확히 특성이 구분되어 지는 시군구 등 동일한 소지역내 비슷한 속성을 가지고 있는 특징이 있다.
현재 주택가격통계인 전국 주택가격동향조사와 토지가격통계인 전국지가변동률조사는 시군구를 층화변수로 표본을 추출하여 조사 되고 있어 다른 국가통계에 비교하여 상대적으로 소지역 단위로 발표되고 있다. 하지만 최근 부동산 시장은 과거보다 더욱 작은 단위(읍면동 혹은 아파트 단지 단위)에서 가격 및 동향의 차이가 발생하여 통계 공표 단위를 시군구에서 읍면동으로 확대되어야 한다는 목소리가 높아지고 있으나, 이를 위한 표본확대는 시간과 비용 등의 제약에 따른 효율성 저하로 어려움이 존재한다. 그러므로 이와 같은 소지역이 가진 속성을 직접 추정하는데 있어서 충분한 표본을 가지고 있지 않는 경우가 많아 추정값의 신뢰성과 정확성을 보장할 수 없다. 그렇기 때문에 소지역의 특성에 따라 추정하는 연구가 끊임없이 이루어지고 있고, 최근 몇 년간 이러한 소지역 추정 관련된 수요는 점점 늘어나고 있다. 소지역 추정치들은 국가 정책을 결정하고 수행하는데 활용되면서 중요성이 더욱 부각되고 있다.
모형을 이용한 소지역 추정은 이용 가능한 변수가 타당한 정보를 제공하지 못하는 지역에 대해 믿을만한 추정치를 제공 가능하게 한다. 이러한 소지역 모형은 소지역 효과(small area effect)를 포함하고 있다. 소지역 효과는 보통 정규분포변수로 가정되고, 보조변수와 소지역 특성 효과는 소지역에 추정과 함께 선형적으로 이어져 있다. 이와 관련된 자세한 사항에 대해서는 Fay, Nelson and Litow(1993), Datta, Ghosh, Nangia and Natarajan(1996), Fay (1987), Ghosh, Nangia and Kim(1996) 등에서 확인 할 수 있다.
Fay-Herriot(1979) 모형은 가장 잘 알려진 소지역 추정 모형으로 설계모형(Design model)과 회귀분석 모형(regression model)의 조합으로 다른 지역의 특성을 이용(borrow strength)한다. Fay-Herriot 모형은 직접 조사로 추정된 추정값은 공변량의 선형함수를 가정한다. 하지만, 이 가정을 만족하지 않을 때는 소지역 모수 추정값이 편향될 수 있다. 이렇게 종속변수와 설명변수 간 비선형성을 가지는 경우, P-스플라인(Penalized-splines)을 이용한 준모수적 접근방법(Eilers and Marx, 1996)으로 해결할 수 있다.
<그림 1>은 서울특별시의 시군구별 지수로 주택매매가격지수와 지가지수를 그린 산점도이다. 보이는 것과 같이 뚜렷한 선형성을 확인 할 수 없다. 따라서 본 연구에는 선형성을 가정하는 모수적인 방법과 비선형성을 가정하는 준모수적 방법을 적용하여 모델링을 한다. 본문 2장에서는 전통적인 소지역 모형의 정의와 준모수적 접근 방법을 소개하고 베이지안 추론을 이용하여 추정하는 방법을 제안하였다. 3장에서는 실제로 소개된 모형을 이용하여 주택매매가격지수와 지가지수를 적합 시킨 수치를 제공한다. 이때 모형이 비교 측정방법을 활용하여 적합한 모형을 찾아내고 실제 표본조사에서 추정값의 상대표준오차(coefficent of validation)와 모형의 표준오차(Standard error)의 비교를 통하여 모형의 적합성을 확인해본다. 마지막 4장에서는 결론을 내리고 모형의 활용 방안과 시사점 등을 모색하겠다.
Ⅱ. 소지역 모형과 계층적 베이지안 추론
일반적으로 소지역 추정법은 크게 직접 추정법, 간접 추정법, 모형기반 추정법으로 나눌 수 있다. 먼저 직접 추정법은 소지역의 표본조사를 실시하여 직접 추정하는 방식이다. 소지역의 크기에 따라 표본의 개수가 늘어나는 경향이 있기 때문에 소지역을 추정하기에 충분한 표본을 추출한다면 전체지역을 생각할 때 조사에 대한 비용이나 자원 등의 면에서 비효율적이다. 반대로 전체지역을 고려하여 표본을 추출한다면 소지역에 배정되는 표본의 개수가 적어 정도 높은 추정을 할 수 없다.
두 번째 방법은 간접 추정법이다. 간접추정법은 다시 인구통계적 방법, 합성 추정법(Synthetic Estimator), 복합추정법(Composite Estimator) 등으로 나눌 수 있다. 인구통계적 방법은 가령 5년마다 하는 센서스에서 중간 해당년도의 인구를 추정하기 위해 사용하는 방법으로 출생수, 사망수 등을 활용하여 인구를 추정하는 방법이다. 합성 추정법은 큰 지역을 기준으로 표본설계를 하였을 때 큰 지역과 소지역의 구조적 특성이 같다는 조건하에서 추정 하는 방법이고 복합 추정법은 직접추정한 불안정한 추정량을 합성추정량과 가중평균을 이용하여 추정하는 방법이다.
세 번째 방법은 모형 기반 추정법이다. 이 추정법은 소지역 내 포함하고 있는 공변량으로 지역 수준 모형을 적합시켜 추정하는 방식으로 다음과 같은 장점이 있다. 첫째, 소지역간의 복잡한 오차구조를 내포하고 있기 때문에 소지역 간의 변동을 반영하여 소지역 추정의 정도를 높일 수 있다. 둘째, 표본 자료로부터 모형의 유용성을 확인할 수 있고, 범주형 자료 및 시계열 자료 등 대부분의 자료형태를 모형화 하여 추론 할 수 있다.
본 연구에서는 모형 기반 추정법인 계층적 베이즈(HB) 방법을 이용하여 비교적 추론의 정확도가 높고 복잡한 유형의 문제들도 해결할 수 있는 MCMC(Monte Carlo Markov Chain)방법을 활용하였다.
일반적으로 관심모수인 는 소지역의 평균으로 가정하며 여기서 은 소지역의 개수이다. 는 직접 조사되어진 추정치로 번째 소지역과 관련 있는 반응변수이다.
는 와 관련 있는 공변량 벡터로 가정한다. 그러면 지역효과 가 포함된 소지역 모형을 다음과 같이 표현할 수 있다.
여기에 는 회귀 계수 벡터이고,
여기에 는 회귀 계수 벡터이고, 이때 는 지역 랜덤 효과를 나타내며 평균이 0이고 분산이 인 정규분포를 따르고, 는 모형 오차항으로 평균이 0이고 분산이 인 정규분포를 따른다고 가정한다. 와 는 독립임을 가정한다.
Fay and Herriot(1979)은 식(1)과 식(2)를 선형 혼합 하여 식(3)과 같은 소지역 모형으로 표현 할 수 있다.
이 모형의 경우 추정값 와 공변량 가 선형관계가 있어야 활용할 수 있다.
위의 Fay and Herriot(1979)에 의해 제안된 모형은 추정값과 공변량 사이에 선형관계를 만족하지 않을 경우 편향(biased)이 발생하게 된다. 따라서 설명변수와 종속변수가 비선형인 경우에는 P-스플라인(Penalized-splines)을 이용하여 모형의 준모수적 접근방법(Eilers and Marx, 1996)을 사용한다.
기본적인 준모수적 모형은 식(4)와 같다.
이때 는 공변량들의 함수로 구체화되지 않은 함수이다. 설명변수와 반응변수 간에 뚜렷한 관계가 없는 경우에 활용한다. 는 지역 랜덤 효과로 를 가정하고, 와 는 각각 번째 지역과 번째 시간 상호작용 효과와 오차항을 나타내며 , 를 가정한다.
P스플라인에서 절단된 다항식 기저함수(Truncated Polynomial Basis Function; TPBF)를 이용하여 를 근사시켜 준모수적 모델을 식(5)와 같이 표현 할 수 있다.
이때 와,는 공변량 이고 이때 는 중심계수로 절단된 다항식 기저함수의 정의이다. 또한, 는 회귀계수 벡터, 는 스플라인 계수 벡터이며 이다. 반응변수와 설명변수들이 측정된 지역의 수를 , 측정된 시간의 수를 라 한다. 위에서 p차수의 스플라인 모델은 어떤 구체화되지 않은 평활화(smoothing) 함수를 활용하여 적절하게 근사 할 수 있다. 일반적으로, 선형 또는 이차식 모형이 적합된 커브에서 적절한 평활화 효과를 나타내어 좋은 결과를 제공한다.
본 모형의 목적은 소지역 특성치 를 추정하는 것이고, 번째 지역의 반응변수를 , 공변량은 와 라 하자. 위 식을 이용하여 다음과 같은 계층적 베이지안 모형을 정의할 수 있다.
모수공간은 이고, 전체 모수 공간은 이다.
준모수적 모델의 우도함수는 식(6)과 같다.
여기서, 는 평균이 , 분산이 인 정규분포의 확률밀도함수를 나타내며, 와 는 평균이 0이고 분산이 각각 , 인 정규분포를 나타낸다.
베이지안 프레임에서는 모수에 대한 사전분포 정의가 필요하다. 사전적인 정보가 없을 경우 무정보적 사전 분포(noninformative prior)를 활용하고, 있는 경우 공액사전분포(conjugate prior)를 활용한다. 따라서 다항 계수 에 대한 사전분포로는 정보가 없는 균등분포를 정의 하였고, 각각 분산의 역수는 감마분포를 사전분포로 활용하였다. 이러한 사전분포는 상호간에 독립을 가정한다. 즉, 사전분포는 다음과 같다.
는 형상 모수 a, 비율 모수 b를 가지는 감마분포를 나타내며, 이다.
앞서 설정된 계층적 베이지안 모형을 이용하여 자료가 주어졌을 때 사후분포는 우도함수와 사전분포의 곱 형태인 식(7)과 같다.
식(7)
의 주변 사후 분포는 분석적으로 매우 복잡하기 때문에 고차원의 적분이 필요하게 되며 모수 추정의 문제는 매우 어렵다. 그러나 베이지안 추론 방법을 활용하여 다른 연관 모수들이 주어졌을 때 의 조건 분포를 활용하면 쉽고 정확한 추정이 가능하다. 위에서 설정된 사후분포를 활용하여 각 모수의 조건부 분포를 구해보면 <표 1>과 같다. 조건부 분포를 구하는 과정은 부록(Appendix)으로 남겨 둔다.
모든 분포가 각각 표준분포를 따르므로 깁스표집기(Gibbs sampler)를 활용하여 모수를 추정할 수 있다.
Ⅲ. 데이터를 이용한 소지역 모형 적합
데이터분석에 사용된 자료는 한국감정원이 작성하고 있는 주택가격동향조사의 주택매매가격지수와 전국 지가변동률 조사의 지가지수이다. 두 가지의 통계 모두 국민의 관심도가 높은 자료로 주택가격동향조사는 전국 주택 매매가격 및 전세가격의 변동과 시장동향을 조사, 분석하여 정책 수립 등에 활용되는 통계로 1986년에 국민은행에서 시작되어 현재 한국감정원이 조사, 작성 하고 있다. 주택매매가격지수는 매월 206개 시군구를 조사, 발표하는 대규모 조사이다. 전국지가변동률 조사의 지가지수는 1975년에 시작되어 현재 한국감정원이 조사, 작성하고 있는 통계로 전국 지가의 변동 상황을 조사하여 토지정책 수립의 기초자료로 제공된다. 지가지수 또한 매월 252개 시군구를 조사, 발표하는 대규모 조사이다.
본 분석에 사용된 자료는 2014년 1월부터 2014년 9월까지 공표된 서울특별시의 시군구별 지수를 수치분석에 활용하였다. 2014년 1월부터 8월까지는 모형적합에 활용하였고, 9월의 지가 지수를 활용하여 주택매매가격지수를 추정하는 방식으로 수치분석을 실시하였다. 두 가지 지수의 관계는 <그림 1>을 통해 확인 할 수 있다. 두 지수간에 뚜렷한 선형관계를 확인 할 수 없다. 그렇기 때문에 앞서 설명한 선형관계를 가정하는 소지역 모형과 P-스플라인을 이용한 준모수적 모형 두 가지 모형이 모두 적합 하였다. 특히 준모수적 모형에서는 노트의 개수를 0,3,5개로 조절한 모형 3가지를 고려하였다.
앞에서 세운 모형 중 어떠한 모형이 적합한지 확인하기 위하여 추정 값의 차이를 비교하는 4가지의 비교척도(Comparative Measures)를 사용하였다. ARB척도는 번째 지역의 실제 조사되어진 값()과 모형을 적합시킨 추정값()의 차이를 실제값으로 나눈 비율의 평균이고, ASRB 척도는 ARB척도의 비율을 제곱한 평균, AAB, ASD 척도는 각각 차이에 대한 절대값의 평균, 제곱의 평균이며 척도 값이 낮을 수록 적합한 모형이라 할 수 있다.
비교방법 | 척도(Measures) |
---|---|
• Average Relative Bias(ARB) | |
• Average Squared Relative Bias(ASRB) | |
• Average Absolute Bias(AAB) | |
• Average Squared Deviation(ASD) |
서울지역의 25개 시군구의 2014년 1월부터 9월까지의 주택 종합유형의 매매가격지수와 지가지수 자료를 활용하여 베이지안 추론을 실시하였다. 본 분석에는 4가지의 모형을 설정하였다. 모형1은 선형을 가정한 전통적인 소지역 모형, 모형2는 비선형인 준모수적 방법을 이용하여 TPBF를 기저함수로 사용하고 노트(knot)를 3개로 정의한 모형, 모형3은 TPBF를 기저함수로 사용하고 노트(knot)를 5개로 정의한 모형, 모형4는 TPBF를 기저함수로 사용하고 노트를 정의하지 않은 모형으로 각각 설정하였다. 노트는 비선형 모형에서 구분경계로 경계 결정은 자료의 분위수를 활용하여 결정하였다.
모수추정을 위한 시뮬레이션은 깁스표집기에서 20,000번의 반복추출을 실시하여 15,000번을 burn-in 한 후, 모수를 추론하였다.
분석을 위하여 주어진 자료에 대한 변수 설정은 는 번째 시군구 월의 주택 종합 매매지수 이고, 는 번째 시군구 월의 지가지수 이다.
모형1~4의 비교를 위해 정의된 모형 비교측정도구를 활용하여 계산한 결과가 <표 3>에 나타나 있다. 모형1은 종속변수와 설명변수의 선형성이 만족하는 경우 사용하는 모형이므로 다른 모형에 비해 높은 값이 나왔고, 모형4는 노트를 설정하지 않아 높은 값으로 나타났다. 노트를 설정한 모형2와 모형3을 비교한 결과 유사하게 나와 모형3을 이용하여 소지역 모델링을 실시하였다. 모형 3으로 적합한 사후평균들은 아래에서 확인 할 수 있다.
모형 | ARB | ASRB | AAB | ASD |
---|---|---|---|---|
모형1(FH model) | 0.0107 | 0.0002 | 1.0527 | 1.6289 |
모형2(3 knot) | 0.0080 | 0.0001 | 0.7884 | 1.0069 |
모형3(5 knot) | 0.0081 | 0.0001 | 0.8048 | 0.9405 |
모형4(w/o knot) | 0.0103 | 0.0001 | 1.0144 | 1.4099 |
<표 4>는 모형3에 대한 사후분포의 평균과 S.E., 95% C.I 모수 추정치들이 나타나있고, <그림 2>는 모형의 수렴성 진단을 위한 와 의 시도표(Trace plot)와 조화평균 도표(Ergodic mean plot)이다. 두 가지의 모수 모두 시도표는 일정한 패턴이 없이 정상(station- ary)분포로 수렴하고, 조화평균 도표도 안정한 값을 보임에 따라 수렴하는 것을 확인 할 수 있다.
위에서 산출된 모형을 이용하여 추정된 주택매매가격지수의 추정치들이 <표 5>에 나타나 있다. 매월 추정치에 대한 상대표준오차(CV)가 안정적으로 나와 추정의 정도가 높아 졌음을 확인 할 수 있다. 이는 <표 6>의 ’14년 9월에 실제 조사에 의해 산출된 지수에 대한 상대표준오차와 소지역 모형에 의한 추정된 지수에 대한 상대표준오차를 비교해 보면 명확히 확인 할 수 있다. 다만, 추정 값과 참값의 차이가 조금은 크게 나타난 지역은 주변지역의 영향으로 인해 공간적평활화(spatial smoothing)된 결과로 해석된다. 또한 공변량으로 사용되어진 지가지수의 경우 측정오차가 발생하기 때문에 좀 더 정확한 값으로 대체를 한다면 좀 더 좋은 결과를 얻을 수 있을 것으로 기대된다.
Ⅳ. 결론
본 연구는 주택매매가격 지수와 지가지수를 소지역 모형에 적합 시켜 지가지수를 이용하여 주택매매가격 지수를 추정해 보았다. 앞의 결과에서 확인 할 수 있듯이 선형성을 만족하지 않는 두 가지 가격지수의 소지역 모델링을 위해서는 준모수적 방법인 P-스플라인을 활용한 노트를 설정한 TPBF 모형이 가장 적합한 모형으로 나타났다. 모형을 적합 시켜 공간적 평활화가 나타나지만 추정 값들이 실제 조사가격에 비해 안정적으로 나타나는 것으로 확인할 수 있다. 다만, 정확한 참값을 공변량으로 활용해야 하지만 측정오차가 존재하는 지가지수를 활용하였기 때문에 그 측정오차를 고려한 모형은 차후에 과제로 남겨 두었다.
가격 지수의 소지역 추정은 세부시장 정보가 필요한 부동산 시장을 분석하는데 반드시 필요하다. 이는 정부의 부동산 정책을 뒷받침해주는 역할 뿐만 아니라 부동산이 가지고 있는 속성인 입지에 따른 가격의 차이를 확인 할 수 있는 중요한 역할을 한다. 특히 현재 시군구별 가격통계가 나오지 않는 월세가격 동향조사, 상업용 임대동향조사 등은 시도별 혹은 상권별 가격통계에 의존할 수밖에 없다. 하지만 본 연구에서 알 수 있듯이 시군구별 가격통계가 생산되는 주택가격동향조사의 매매 가격지수, 전세 가격지수, 전국지가변동률조사의 지가지수 등과 같이 관련이 있는 공변량을 찾을 수 있는 경우 위의 방법과 같이 모형화하여 시군구별 지수를 추정해 낼 수 있을 것이다. 또한, 상호 관련이 있는 가격지수들의 소지역 모델링을 통하여 조사가격에 대해 상호 검정하고 특이한 지역에 대해 검증 과정을 거쳐 조사 정확도를 제고 할 수 있는 척도가 될 수 있을 것이다.
또한, 지가지수는 공표지역이 시군구보다 하위시장인 읍면동으로 확대되었다. 이는 동일한 모형을 활용하여 주택가격동향조사의 표본 확대 없이 현재 조사된 데이터만으로도 정도 높은 읍면동별 주택 매매가격지수 추정으로 보다 효과적으로 소지역의 동향을 파악할 수 있을 것으로 기대된다. 이는 조사 예산 확대 없이도 현재의 공표단위보다 하위 단위에서의 가격 동향을 확인 할 수 있을 것으로 보인다. 모든 통계에서 소지역 추정이 중요시 여겨지고 있는 시점에서 한국감정원이 생산하고 있는 가격지수인 전세가격지수, 월세가격지수, 상업용 임대가격지수 등 부동산 가격 통계가 소지역 추정을 통해 통계가 작성이 되길 기대해본다.