페미위키:포크 프로젝트/리브레 위키/게임 이론

최근 편집: 2021년 11월 14일 (일) 12:53

틀:추천 문서 틀:다른뜻 게임 이론(영어: Game Theory)은 놀이(비디오 게임 등)의 이론이 아니고, 수학적 도구를 사용해 이해당사자들의 전략을 분석하여 상호작용을 예측하는 것을 목표로 하는 이론이다.[1] '필승전략' 같은 거 연구하는 분야라고 보면 된다. 물론 '내가 이기기 위해' 연구하는 게임 필승 전략이랑은 좀 다르고, 이 '게임'이 어떻게 돌아가나, 참가자들이 어떤 상황에서 어떤 전략을 사용해 어떤 결과가 나오나, 이런 것들을 연구한다. 대표적인 예로는 죄수의 딜레마 모델이 있다. 주로 경제학이나 국제정치학 같은 사회과학 분야나 심리학 등에서 사용된다.

개요

현재 게임 이론은 국제/국내 정치에서 이해당사자들이 어떤 전략을 사용해 상호작용할 것인지를 이해하는 데 있어 가장 좋은 수단이라는 평가가 있다. 게임 이론은 기본적으로 수학적 모델이며, 그 목적은 전략적 상호작용(strategic interaction)을 분류, 분석하는 데 있다. 그리고 바로 그 전략적 상호작용은 수많은 사회 현상의 중심에 있다. 경제적 관계라든지, 정치적 관계라든지, 아니면 이름값을 하는 진짜 게임 플레이라든지 말이다.

게임 이론의 갈래는 여러 가지 방법으로 나눌 수 있지만, 그 중 하나는 '협조적'(cooperative) 게임 이론과 '비협조적'(noncooperative) 게임 이론으로 나누는 것이다.

  • 협조적 게임 이론
여기서는 참여자들 사이에 약속이 성립될 수 있고, 이 약속에 구속력이 있다고 가정한다. 이 모델은 약속을 어기는 것이 영 좋지 않은 결과로 이어지는 경우나, 게임의 규칙이나 하여간 모종의 이유로 '약속이 지켜지는' 상황에 유용하다. 국내 정치, 경제적인 경우라면 법률의 철퇴라는 것이 있어서 상당히 유용하지만, 애석하게도 국제 정치에는 그런 경우가 없다시피하다. 단, 국제 레짐 이론이나 구성주의적 입장에서는 다른 대답을 내놓을 것이다. 자세한 것은 항목 참조.
  • 비협조적 게임 이론
이 경우는 참여자들이 자기에게 이익이 되는 경우에만 협력하는 상황을 가정한다. 아무리 진실된 약속을 맺었어도 '선택의 때'가 왔을 때 그 약속이 하등 도움이 되지 않는다면 다들 가차없이 약속을 어기는 것이다. 따라서 여기서는 행위자들이 어떤 선택을 함으로써 얻게되는 이익이 무엇인지를 중시한다. 물론 그 선택에는 뒤통수 때리기도 들어 있다. 자연히 비협조적 게임에서는 밑장빼기나 감시 문제에 초점이 맞춰지게 된다. 이게 일부러 뒤통수를 때린 것인지, 안 때리려고 했는데 때려진건지를 확인하기 위함이다.

추가로 여러분이 좋아하는 그런 게임들을 다루는 조합론적 게임 이론도 있다. 추상전략 게임도 참고.

전략형 게임

전략형 게임(strategic form game 혹은 normal-form game)에서는 모든 참여자들이 다른 참여자들의 선택을 모르는 상태에서 자신의 전략을 선택한다. 동시게임에서 각 참여자들은 자신과 다른 참여자들의 선택에 따라 어떻게 보상을 받는지를 알고 있고, 두 명이서 동시게임을 할 경우 이러한 보상구조를 행렬을 통해 나타낼 수 있다. 조금 더 정확하게 설명하자면 비협조적 게임을 표현하는 방법 중 하나가 전략형 게임이며, 비협조적 게임을 분석할 때 경기자의 합리성과 경기자, 각 경기자의 전략 집합, 보수함수가 모든 경기자 사이의 공통 지식이란 것을 전제한다.

또한, 전략형 게임이라도 두 명 이상의 참여자가 있는 경우 일반형으로 나타내기가 곤란하다. 4명이 참여하는 (예컨대) 카드 게임을 게임으로 나타낸다면, 4차원 공간이 있어야 이 게임의 보상구조를 나타낼 수 있을 것이다.[2] 표를 여러 개 그리면 해결 가능하다.

죄수의 딜레마

흔한 죄수의 딜레마 행렬

죄수의 딜레마는 아마 게임 이론의 다양한 경우 중에서도 가장 유명한 축에 들 것이다. 일반형 게임이 그렇듯이 각 참가자들은 동시에 어떤 선택을 하는데, 이 게임에서 특히 재미있는 것은 분명히 각자가 합리적으로 결정을 했는데 그 결과는 거의 확실하게 모두에게 나쁜 것이 되어버린다는 점이다. 이는 고전경제학에서 흔히 등장하는 "개별 경제주체들의 합리적 선택은 사회적으로 효율적인 결과로 귀결된다"는 그런 원칙에 대한 매우 강력하고 설득력이 있는 반례가 된다. 죄수의 딜레마는 두 명의 참가자가 각각 두 개의 선택지를 갖고 있는 상황이다. 표로 나타내보자면 이렇다.

B 협력 B 배신
A 협력 상, 상 통, 유
A 배신 유, 통 벌, 벌

예를 들어 A가 협력을 택하고, B가 배신을 택한다면 A는 뒤통수를 맞고(통), B는 배신을 때리게 된 유인(유)을 얻게 된다. 또 A와 B가 모두 협력을 택했을 경우는 둘 다 상을 받으며, 둘 다 배신했을 경우는 벌을 받는다. 상-벌-유-통의 용어는 편집자가 임의로 정한 것이다. 이 부분의 참고문헌(Bueno de Mesquita, 2010)에서는 이를 각각 the Reward (R), the Punishment (P), the Temptation (T), the Sucker's Payoff (S)로 표기한다.

여기서 보상의 크기가 유+벌>상+통인 상황일 때 죄수의 딜레마 게임이 성립한다.

적용

대표적인 죄수의 딜레마 상황을 인용하면 다음과 같다.

어떤 범죄가 물적 증거는 없고 오직 범인의 자백에 의해서만 죄를 입증해야 하는 상황에서 범죄를 함께 저지른 것으로 의심되는 두 명의 용의자(A, B)가 검거되어 심문을 받게 되었다고 하자. 두 사람은 친구이기에 서로 의사를 교환할 수 없도록 따로 떨어진 곳에서 각자 심문을 받는다. 심문을 맡은 검사는 두 용의자에게 다음과 같은 동일한 제의를 한다.
“만약 당신이 범죄에 대해 부인을 하고 당신 친구가 자백한다면 당신은 10년형에 처해질 것이고 당신 친구는 협조를 하였기에 방면할 것이오. 그리고 당신과 당신 친구 모두가 자백한다면 5년형에 처해질 것이오. 반면 두 사람 모두 범죄를 부인하고 버틸 경우 두 사람은 과거 당신들이 저지른 범죄를 재수사하여 2년형에 처해지도록 만들겠소."

이 때 우리의 '합리적인' 용의자들은 어떻게 행동할 것인가? 설명을 위한 가정일 뿐이니까 자백만으로는 유죄 선고를 때릴 수 없다는 점은 쿨하게 넘어가자.

둘 다 2년만 살아도 되도록 둘 다 범행을 부인하면 좋겠지만, 답은 '둘 다 자백을 한다'이다.

이유는 이렇다. 당신이 A라고 가정해보자. 먼저 자백을 한다면 어떻게 될까. B가 당신 마음도 모르고 자백해버린다면 당신은 5년형에 처해진다. 하지만 고맙게도 혐의를 부인해준다면 당신은 풀려난다. 사람 마음은 알 수 없으므로 쿨하게 자백한다/안 한다 각각 확률이 50%라고 보자. 그렇다면 당신이 자백했을 때의 기대 형량은 2.5년이다.

반대로 혐의를 부인한다면 어떨까? B가 자백한다면 당신은 10년형에 처해진다. 반대로 부인한다면 2년형이 전부다. 위와 같은 방법으로 계산하면 기대 형량은 무려 6년이다.

따라서 당신은 당연히 기대 형량이 낮은 쪽, 즉 자백하는 쪽을 선택할 것이다. 그리고 이는 B 또한 마찬가지라서 B도 자백을 하고, 당신(A)과 B 둘 다 5년형을 선고받아 사이좋게 망하는 것이다! 분명 당신도 B도 합리적인 선택을 했는데(기대형량이 낮은 쪽을 선택했으니까), 전체적으로 보았을 때는 전혀 합리적이지 않은 결과가 나와버린 것이다. 가장 합리적인 결과는 둘 다 범행을 부인하고 둘 다 2년형만 받는 것이니까 말이다. 이는 두 사람의 형량을 합친 값이 둘 다 부인했을 때가 4년으로 가장 적고, 나머지 세 경우는 전부 10년이라는 점에서 알 수 있다.

이 지옥같은 상황, 내시 균형

왜 두 죄수는 서로 범행을 부인하는 대신 자백을 해서 손해를 볼까? 왜냐하면 그것이 존 포브스 내시가 고안한 '내시 균형'(Nash equilibrium) 상태이기 때문이다. 참고로 내시 균형은 '자기 혼자만 전략을 바꾸는 것을 통해서는 어떤 참여자도 일방적인 이익을 얻을 수 없는 상황'을 말한다. 다시 말해, 아무도 전략을 바꿀 이유가 없는 상황.[3] 자연히 게임의 양상은 그대로 굳어버린다. 내시 균형이라고 무조건 나쁜 것은 아닌데, 이번엔 그 굳어버린 상황이 애석하게도 지옥같은 상황인 것이다.

참고로 지배전략, 우월전략이라고 많이 하는 개념이 있는데, 이는 '상대가 뭘 하든 이걸 선택하는 것이 이득'인 전략을 말한다. 이 게임에서는 자백이 지배전략이다. 상대방이 어떤 선택을 하든 내가 얻는 이익은 자백>부인이기 때문이다. 내시 균형과 정의를 잘 비교해보면, 지배전략이 훨씬 더 강한 (조건을 충족하기 어려운) 개념임을 알 수 있다.

파레토 효율

본문을 가져온 내용 이 내용은 파레토 최적 문서의 본문을 가져와 보여주고 있습니다. 더 자세한 내용은 해당 문서에서 확인해 주십시오.

둘이 협력했으면 더 좋은 결과가 나왔을 텐데, 그러지 못해 시망해버린 이런 상황은 '파레토 열등'(Pareto inferior)의 한 경우이다. 즉, 파레토 열등은 "누구도 손해를 보지 않으면서 최소한 한 명이 이득을 볼 수 있는 선택지가 남아 있는 상황"을 말한다. 그리고 이 죄수의 딜레마에서 나타난 내시 균형은 파레토 열등인 것이다.

반대의 경우는 '파레토 최적'(Pareto optimality), 혹은 '파레토 효율'(Pareto efficient)이라고 부른다. 이 경우는 "누구도 손해를 보지 않으면서 최소한 한 명은 수혜를 볼 수 있는 방법이 더 이상 없는 상황"이다. 죄수의 딜레마에 적용하자면 서로 범행을 부인하고 2년만 사는 상황이 될 것이다. 그게 개개인에게는 최고의 상황(=그냥 석방)은 아니겠지만, 하여간 전체적으로 보았을 때 가장 좋은 상황이다.

그런데 많은 국제정치학적 관점에서는 국제정치는 애석하게도 파레토 열등이라고 본다. 국제정치는 무정부 상태로 전제되는데, 이에 따르면 '뒤통수 전략'이 더이상 지배전략이지 않게 해줄, 즉 비협력적 게임을 협력적 게임으로 전환시켜줄 초국가적 권위(supranational authority)가 부재하기 때문이다. 단, 국제 레짐 이론에서는 완전한 무정부 상태는 아니라고 본다. 자세한 것은 항목 참조.

한편 게임 이론에서 다루는 많고 많은 종류의 게임들 중에는 지배전략이 존재하지 않는 것도 많다.

치킨 게임

본문을 가져온 내용 이 내용은 치킨 게임 문서의 본문을 가져와 보여주고 있습니다. 더 자세한 내용은 해당 문서에서 확인해 주십시오.

우리들의 일그러진 영웅》에서 등장하는 치킨 게임도 게임 이론의 일부로서 설명 가능하다. 치킨 게임이란 1950년대 미국의 젊은이들 사이에서 유행한 것으로, 일정한 거리를 두고 차 두 대가 서로 전속력으로 돌진하는데 먼저 핸들을 튼 사람이 치킨(겁쟁이)이 되는 것이다. 둘 다 치킨이 되면 둘 다 살고, 한명만 치킨이 되면 둘 다 살지만 한 명은 놀림거리가 된다. 둘 다 치킨이 되길 거부하면 둘 다 죽는다. 굳이 숫자를 넣어본다면 대충 이런 식으로 나타낼 수 있을 것이다.

B 틀기 B 직진
A 틀기 0, 0 -1, 1
A 직진 1, -1 -10, -10

즉, 상대방이 '직진'을 선택한다면 나는 이를 피하는 게 최선의 선택이고, 상대방이 '틀기'를 선택한다면 나는 직진하는 것이 최선의 선택이다. 하지만 상대방이 어떤 선택을 하는지 알 수가 없으므로 어떤 전략을 택해야 할 지 도무지 감이 서지 않는다. 둘 중 누구도 죽음이라는 최악의 결과를 원하지 않지만 게임에서 죽음에 이르에 되는 매커니즘이 치킨 게임의 핵심. 국제정치학에서는 이 치킨 게임에서 아이디어를 얻어 왜 국가간의 사소한 분쟁이 전면전으로 번지는지에 대한 아이디어를 얻었다. 현대사에서 독보적인 치킨 게임의 강자는 북한이다. 핵을 빌미로 벼랑 끝 외교를 전매특허로 하여 매우 자주 원하는 결과를 얻어낸다.

그 밖

참고로 치킨 게임의 (규칙을 살짝 위반하지만 누가 봐도) 지배전략인 전략이 알려져 있다. 출발 직전 핸들을 뽑아서 창문 밖으로 던지면 된다. 그리고 여기서 결정적인 전제는 이 미친 행동을 상대방이 볼 수 있어야 한다. 엄밀히 말해서, 이런 선제적인 조치(pre-commitment)을 할 가능성이 있는 경우 게임의 구조 자체가 바뀌게 되고, 더 이상 이 게임은 전략적 게임이 아니게 된다.

심지어 이 행동은 꽤 현실적인 것으로 보인다. 북한이 핵 미사일을 만들겠다고 약간의 준비를 하면서 위협하는 상황은 (아직 핵 미사일을 안 만들었기 때문에) 일종의 치킨게임의 구조에 가깝다. 하지만 일단 핵 미사일을 개발해서 쏴버리면 이미 북한은 행동을 한 것이고, 다음 턴은 한국 또는 미국으로 돌아가는 것이다. 이런 구조를 가진 게임은 아래의 전개형 게임 파트의 예시에서 언급되고 있다.

전개형 게임

전개형 게임(extensive form game 또는 sequential game)에서는 참여자들의 의사결정이 순차적으로 이루어진다. 여기서 중요한 것은, 전개형 게임에는 동태적 의사결정 과정과 불확실성에 대한 정보가 명시적으로 포함되어있기 때문에 게임에 따라 참여자들이 의사결정을 할 때 다른 참여자가 어떤 선택을 이전에 했는지를 알고 이를 자신의 선택에 반영할 수 있다는 점이다. 단 주의할 점은 앞에서 설명한 전략형 게임과 전개형 게임은 비협조적 게임을 표현하는 서로 다른 방식이나, 같은 게임 상황을 표현할 수 있다는 것. 두 표현방식은 게임을 보는 관점이 다를 뿐이다.[4]그러니까 전개형 게임을 전략형 게임의 형태로 나타낼 수 있으며 때에 따라서는 전략형 게임을 전개형 게임으로도 표현 가능하다!

흔한 전개형 게임의 예. 여기서 각 참가자들은 U와 D중 한 가지를 택할 수 있다.

전개형 게임(extensive game)은 나무 모양의 그림, 즉 수형도 모형으로 표현되며, 나무의 줄기 부분에서 게임이 시작되어 가지를 쳐 나가면서 게임의 진행과정을 나타낸다. 물론 나무의 맨 아래쪽에서는 각 참여자들이 어떤 보상을 받을지가 결정된다. 전개형 게임의 '나무'는 의사결정마디(decision node)들로 구성되어 있다. 각각의 의사결정마디에서는 어떤 참여자가 의사결정을 할 지, 그리고 그 참여자가 어떤 행동을 할 지가 정해져 있다. 간단히 말해 턴제 게임에서 각 턴을 의미하는 거라고 보면 된다. 한 의사결정마디와 그 다음 단계를 이어주는 것은 가지(branch)라고 부른다. 각 의사결정마디에서 다음 단계로 이어지는 가지는 하나밖에 존재할 수 없다.

각 의사결정마디에 연결되는 것은 또다른 의사결정마디일 수도 있고, 게임 오버하는 지점인 종결마디(terminal node)일 수도 있다. 각 엔딩에서는 참여자들이 어떤 보수를 받을지가 결정된다. 위에 나타낸 나무 모양의 특성으로 인해 모든 엔딩은 각자 고유한 경로를 가진다. 엔딩에 이르기 전까지 이루어졌던 참여자의 선택에 따라 그 게임 오버는 해피엔딩일 수도, 배드엔딩일 수도 있다.

그렇다면 전개형 게임에서 각 참여자들이 어떤 행동을 하는지를 어떻게 나타내는가? 전개형 게임의 '나무[5]'는 여러 개의 의사결정마디가 있으므로 한 사람도 여러 번의 의사결정을 할 수 있다. 따라서 각 참여자들의 전략은 자신이 선택을 하는 각 의사결정마디에서 어떤 선택을 할 지에 대한 사전적인 계획을 나타낸다. 여기서 의사결정마디는 이전에 이루어졌던 모든 참여자들의 선택에 따라 결정된다는 점을 생각하자. 따라서 참여자는 이러한 선택들을 반영하여 (경제학이 늘 그렇듯이) 합리적으로 의사결정을 하게 된다. 결국 우리가 게임이론을 이용해서 사회현상에 적용한다면, 우리가 할 일은 참여자들의 전략이 어떤 경우에 균형을 이루는 지를 찾는 것이다.

전개형 게임의 예시와 균형

전개형 게임을 나타내는 간단한 예시로 다음과 같은 상황을 생각해 볼 수 있다. 두 참여자 A, B가 있고, 여기서 A는 어떤 시장에 진입하려고 하는 기업이고, B는 그 시장에 원래 있던 기업이다. 게임에서 A가 먼저 시장에 진입할지 말지를 결정하고, 그 다음에는 B가 여기에 대해서 어떤 대응을 할 지를 결정한다: (1) 가격을 극도로 내려서 출혈 경쟁을 하는 선택을 할 수도 있고, 아니면 (2) 원래 가격을 유지하여 두 기업이 시장에 남아서 영업을 계속하도록 하는 선택을 할 수도 있다.

게임에서 가능한 각 엔딩에 대한 게임의 보수는 다음과 같이 주어진다. A가 시장에 진입하지 않는다면, 여기서 게임은 끝나고 A는 0, B는 2를 받는다. A가 시장에 진입하였지만 B가 출혈 경쟁을 선택한다면, A는 -1, B는 0을 받는다. 마지막으로 A가 시장에 진입하고 B도 원래 가격을 유지한다면 A는 1, B도 1을 얻는다.

이 예시가 고려하는 게임의 보수구조는 사실 많은 사회현상에서 관찰될 수 있다. 예를 들면, 소련미국이 참여자이고 소련이 미국 바로 코앞의 쿠바군사시설을 건설하려고 한다고 가정해보자. 그리고 소련이 먼저 예정대로 군사시설을 건설할지를 결정한다. 다음에는 미국이 결정한다. 여기에 미사일을 쏴서 미국인들을 포함해서 인류의 종말을 초래할 위험을 감당할지, 아니면 그냥 놔두고 적당히 넘어갈지를 말이다. 다만 이러한 설명은 현실과는 아직 큰 괴리가 있다. 그 중 큰 이유 하나는, 현실에서와 달리 이 게임에서는 보수구조가 모든 참여자들에게 너무나 잘 알려져 있다는 점이다.

내시 균형

위의 전개형 게임을 마치 전략형 게임처럼 취급하여 일반형으로 나타내고, 여기서 내시 균형을 찾을 수 있다. 각 참여자가 전략(즉, 어떤 경우 어떤 행동을 할 지에 대한 사전적인 계획)을 결정하고 나서 일단 게임이 시작하고 나서는 진행과정에서 더이상 개입하지 않는 것이라고 보면 된다.

이 이론이 극단적으로 적용된 이론은 상호확증파괴.

B 진입-전멸 B 진입-공존
A 진입 -1, 0 1, 1
A 포기 0, 2 0, 2

내시 균형은 (진입, 진입-공존), 그리고 (포기, 진입-전멸) 두 가지가 나온다. 이렇게 균형이 두 가지가 나온다면, 우리는 더이상 게임의 결과를 예측할 수가 없게 된다. 두 번째 균형, 즉 (포기, 진입-전멸)은 B가 '너네 진입하면 우리가 자폭할 거다'라고 위협하는 상황이고, 여기에 A가 쫄아서 진입을 하지 못하는 상황이다. 그런데 이 균형이 기반하는 논리에는 약간의 문제가 있다. 만약 A가 그냥 무시하고 진입을 한다면? 그 다음에는 B가 선택을 하게 되는데, B는 여기서 애초에 위협한 대로 '전멸'을 택할 것인가? 일단 A가 진입을 해버린다면, 이 선택은 더이상 합리적이지 않다. 그러니까 일반적으로 말하면, 전개형 게임의 내시 균형은 납득하기 힘든 균형들을 포함할 수 있다.

부분게임 완전균형

전개형 게임에서 참여자들의 전략이 부분게임 완전균형(subgame perfect equilibrium)이 되려면, 내시 균형이면서 게임의 진행과정에서 참여자의 선택이 모두 합리적이어야 한다. 다시 말해 내시 균형 중에서 게임의 진행과정 중에 있는 시점에서 판단할 때 합리적이지 않는 선택이 포함된 경우를 배제시킨 것이다.

위의 전개형 게임 예시를 통해서 생각해보자. 두 번째 균형인 (포기, 진입-전멸)에서 'A가 진입할 경우 전멸을 택할 것'이라는 B의 위협은 신뢰성이 없다. 왜냐하면 A가 진입한 이후의 시점에서 B 자신의 보수를 고려한 합리적 선택은 '공존'이기 때문이다. 따라서 두 번째 균형은 부분게임 완전균형이 아니다. 반면에 첫 번째 균형인 (진입, 진입-공존)은 A가 진입할 경우 B의 합리적 선택은 역시 '공존'이기 때문에 유일한 부분게임 완전균형이 된다. 결국 예시에서 부분게임 완전균형에 따르면, A는 시장에 진입하고 B는 가격을 그대로 유지한다. 마찬가지로 소련은 군사시설 계획을 밀고 나가고, 미국은 이를 내버려 둔다. 이는 실제와 다르지만, 위에서 언급했듯이 당연하게도 게임 이론에서의 예측이 현실과 항상 잘 맞는 것은 아니다.

반복 게임

반복 게임(repeated game)에서는 참여자들이 동일한 전략적 게임을 여러 번 또는 무한 번 반복한다. 분석하기 꽤 어려운 게임이다. 고로 "사회과학에서 반복 게임이라는 복잡한 수학적 도구를 가지고 뭘 말할 수 있는가? 그리고 이거 힘들게 해서 어떤 질문에 대하여 대답할 수 있는가?"에 대한 아주 대략적인 대답부터 제시할 필요성이 있을 것이다.

경제주체들 간의 연속적인 상호작용(repeated interaction)으로 세계 평화가 이루어질 수 있는가?

반복 게임에서 참여자들의 각 턴에서 받는 보수에 따른 선호체계를 나타내는 데는 몇 가지의 기술적인(=수학적인, 그러니까 머리 아픈) 방법들이 있지만, 기본적으로 참여자들은 각 턴에서 의사결정을 할 때 현재와 미래의 효용에 대해서 모두 어느 정도 고려한다고 보면 된다. 동시에 한 번의 게임을 하는 것과, 같은 게임을 여러 번 하는 것 사이에는 근본적인 차이가 있다. 왜냐하면 내가 했던 선택이 상대방에게 피해를 주는 경우 상대방이 그것에 대하여 나중에 복수를 할 수 있는 가능성이 나타나기 때문이다. 따라서 전략적 게임의 경우와 비교해서 참여자들 간의 협력의 가능성이 훨씬 높아지는 것이 핵심이다.

무한 번 반복되는 죄수의 딜레마

이 게임이 성립하기 위해서는 상술했던 조건과 상x2 > 유+통 조건을 만족해야 한다. 당장 위에 소개되었던 죄수의 딜레마 게임을 생각해보자. 원래 죄수의 딜레마 게임에서는 배신을 때리는 것이 지배전략이므로, 협력의 가능성이 거의 없다. 하지만 이 게임을 무한 번 시행한다면, 참여자들이 택할 수 있는 전략이 훨씬 다양해진다. 참여자들이 고려할 수 있는 전략 중의 하나는 처음에는 협력을 택하다가 상대방이 한 번이라도 뒤통수를 맞으면 그 다음부터는 무조건 배신으로 돌아서는 전략이다. 이런 피도 눈물도 없는 전략을 '무자비 전략'(grim strategy)이라고 부른다. 놀랍게도 죄수의 딜레마의 무한 번 반복게임이라는 암담한 상황에서 모든 참여자들이 동일하게 이런 피도 눈물도 없는 전략을 택한다면, 참여자들이 서로 협력하게 되고 세상이 평화로워질 수 있다. 그 이유는 위에 나왔듯이 참여자들이 지금 배신을 때려서 얻는 것보다 미래의 복수로 인해서 고통받는 것이 더 클 수 있기 때문이다. 다만 참여자들이 미래의 효용변화에 대하여 어느 정도 민감해야 한다는 전제가 필요하다. 게다가 이 전략은 몇가지 이유에서 문제가 있기 때문에 최선의 전략은 아니다. 모두가 한 한번 뒤통수 맞으면 무조건 배신하는 결과는 모두가 선하고 순수한 경우나 다름없기 때문에 이러한 전략은 실수를 용납할 수 없다는 단점이 있다.시뮬레이션으로 여러 전략을 돌린결과 나오는 최선의 수는 어느 정도 봐주는 것. 놀랍게도 한번 봐주는 것보다 두번 봐주는 것이 더 훌륭한 선택이다. [6]

반복게임에서 실현되는 결과

여기서 일반화를 시키는 방법을 생각해보자. (여기서부터 갑자기 어려워진다) 이렇게 당하면 나중에 복수하는 전략을 모두가 택해서 세상이 평화로워지는 것은 죄수의 딜레마에서만 가능한 시나리오인가? 또한, 무자비 전략만이 세계평화를 실현할 수 있는 유일한 복수전략인가? 둘 다 아니다. 생각보다 반복게임에서 이런 메카니즘에 의하여 세계평화가 실현되는 것은 상당히 일반적으로 나타날 수 있는 결론이고, 무자비 전략 이외에도 나쁜 행동을 억제시킬 수 있는 징벌의 형태는 매우 다양하다. 그럼 어떤 전략형 게임을 반복하는 경우, 어떤 결과가 내시 균형으로 달성가능하고, 어떤 결과는 불가능할 것인가?

여기서 일반적인 전략형 게임에 대한 반복 게임에서 뒤통수를 쳤던 참여자가 어떤 상황에 처하게 되는지 파악해야 한다. 어떤 게임 참여자가 배신을 때리는 경우, 나머지 참여자들은 그 배신자를 최대한 곤경에 빠뜨리는 전략을 택해야 한다. 한편, 그 배신자는 나름대로 거기에 대응할 수 있는 최선의 선택을 할 것이다. 결국 배신자가 지금 배신을 해서 나중에 각 턴에서 받게되는 보수는 '나머지 참여자들이 '배신자가 합리적으로 선택해서 얻는 최대보수'를 최소한으로 만드는 전략을 택함으로써 얻어지는 보수'이다. 이 때 먼저 뒤통수를 친 참여자가 그 이후에 각 턴에서 받게 되는 보수를 '최소최대의 보수'(minimax payoff)라고 부른다.

결국 참여자는 배신을 때려서 지금 순간을 한껏 즐기고, 다음부터 배신자로 몰려서 최소최대의 보수를 받게 된다. 따라서 근본적으로 게임의 각 참여자들이 협력을 통해서 그놈의 최소최대의 보수 이상을 받을 수 있는 상황이 마련되어야 아무도 배신 때릴 생각을 안 할 것이다. 그럼 결론은 무엇인가?

  • 반복게임에서 내시 균형이 될 수 있는 전략은 매우 다양하고, 그로 인한 결과(=각 참여자들이 받는 보수)도 매우 다양하다.
  • 다만 모든 결과가 내시 균형 전략으로 달성가능한 것은 아니고, 모든 참여자들이 각자 자신의 최소최대의 보수보다 높은 보수를 받는 결과들만 내시 균형으로 달성할 수 있다.

위의 두 번째 파트를 '내시 전래정리'(Nash folk theorem)라고 한다. 학계에서 누가 처음 제안했는지 잘 모르는데 그냥 어느 순간부터 다들 알게 되어서 이런 이름이 붙여졌다고 한다.

더 읽어보기

기대효용이론과 국제정치학

국제정치학 분야에서는 부에노 디 메스키타(Bueno de Mesquita)가 경제학의 기대효용이론을 최초로 도입하여 국제정치, 특히 국제갈등 연구에 기여한 바가 크다.[7] 메스키타의 주장에 따르면 기대효용이론은 기존 세력균형 이론과 세력우위 이론을 포함하면서 보다 많은 현상을 설명할 수 있는, 과학적으로 보다 진일보한 이론이다.[8] 이 이론에서 (두 국가 사이의) 국제갈등을 설명하기 위해 고려하는 요인을 간략히 설명하면 다음과 같다.

  1. 힘의 우열관계(군사적 개입에서 성공할 확률)[9], P
  2. 군사적 개입이 성공했을 때의 기대효용, S
  3. 군사적 개입이 실패했을 때의 기대효용, F
  4. 군사적 개입을 하지 않았을 때의 기대효용, NC

여기서 군사적 개입을 결정했을 때의 기대효용, 즉 PS+(1-P)F가 군사적 개입을 하지 않았을 때의 기대효용 NC보다 클 경우에, 즉 PS+(1-P)F>NC일 때 정책결정권자는 군사적 개입을 하기로 결정할 것이다. NC가 더 크다면 물론 군사적 개입을 하지 않을 것이고, 양변이 같다면, 뭐, 아무래도 좋을 것이다.

한편 여기서 설명한 내용은 한 국가만을 대상으로 하는 분석으로 비교적 간단한 내용이다. 메스키타는 여기서 더 나아가 두 국가를 동시에 고려하거나 제3국(동맹)의 개입까지 설명할 수 있는 수준으로 모델을 심화시킨다. 자세한 것은 원문(영어)을 참고하자.

  1. Bueno de Mesquita, Bruce. 2010. Principles of International Politics.Washington, DC: CQ Press. pp.82-107, 433
  2. 해당 문단의 개요는 왕규호 조인구, 『게임이론』, 박영사, 2004, p. 10, ISBN 9788971892565 을 참고
  3. Cave, Jonathan. 1987. "Introduction to Game Theory." RAND Graduate School의 1986년 가을 Microeconomics I 수업 자료. 링크
  4. 왕규호 조인구, 『게임이론』, 박영사, 2004, p. 5, ISBN 9788971892565
  5. 흔히 게임트리라고 불린다.
  6. 이런 개념을 설명하기 위한 게임이 있다.신뢰의 진화 원작
  7. 부에노 디 메스키타. (1997). "국제갈등의 연구에 대한 기대효용이론의 기여." (김재한 옮김) 『국제관계론강의 1』 파주: 한울, pp. 164-198 첫머리의 논문 소개에서 인용.
  8. Bueno de Mesquita. (1989). "The contribution of Expected-Utility Theory to the Study of International Conflict." in Manus I. Midlarsky(ed.). Handbook of War Studies. Boston: Unwin Hyman. (김재한 옮김)
  9. 즉, 전쟁에서 승리할 확률이다. 여기서 '힘'(군사력)의 우열관계를 이용하는 것은 일반적인 현실주의 관점에서 본 것이며, 경제력이나 국민 여론, 지리조건 등 다양한 변수가 작용할 수 있다. 편의상 여기서는 힘만을 생각하기로 한다. 보다 정확한 계산을 위해서는 정책결정권자 입장에서 군사적 개입 시 성공 확률을 판단하는 데 고려할 만한 요인을 전부 생각해봐야 할 것이다.

틀:경제학 둘러보기 틀:국제정치학 둘러보기