2006
요약
프로이트의 1차과정 이론과 헵의 신경세포 학습법칙에 기반한 '스트레스-감정 학습이론'에 따라, 음식과 독이 존재하는 2차원 평면 세계 속에 존재하는 감정기반 학습 로봇을 시뮬레이션 하였다. 로봇은 2중 피질구조와 표상을 나타내는 인폰(infon)의 연결주의적 구조를 가지고 있으며, 유아의 성감대 전이에 관한 학습이론이 적용되었다. 로봇은 자발적으로 음식을 찾고 독을 피하는 효과적인 운동방식을 터득하는 것이 목적이며, 몇몇 시뮬레이션 결과 흥미로운 운동패턴을 형성하기도 하였다.
본 연구는 2003년도에 이루어진 것으로, 개인용 컴퓨터에서 제작된 프로그램으로 시뮬레이션 하였다. 본 연구를 이해하기 위해 나의 다른 글, <감정의 원리 - 스트레스와 감정>과, <인공지능을 위한 성>, <감정기반 학습 알고리즘 : 인공변연계의 구상>을 참조하라.
시뮬레이션 세계의 설계
연구 중인 '진화와 심리학에 근거한 지능체'의 효용을 검토하기 위하여, 이론의 핵심만을 구현한 로봇과 학습과 생존에 필요한 세계(world)를 컴퓨터로 시뮬레이션하였다.
세계::총괄
로봇이 탐색해야 할 세계는 2차원 행렬로 된, 평면의 세계이다. 이 세계는 임의로 구성된 가로줄과 세로줄로 이루어진다. 그리고 먹이는 그 교차점에 위치한다. 전체적으로 보면, 좀 불규칙적인 체크무늬로 이루어져 있다. 독은 임의의 점에 위치하며, 독의 위치로부터 감쇄되는 ‘악취’를 주변에 방사형으로 야기시킨다.(음식은 아무런 향기를 발산하지 않는다. 굳이 말하자면, 먹이의 위치로부터 상하좌우로 뻗어나간 선이, 향기의 역할을 한다.) 세계의 크기는 50*50에서 200*200까지 다양하게 시도했으며, 지도의 상단과 하단이, 좌측과 우측이 연결되기 때문에 사실상 무한히 이동할 수 있는 구조이다.
줄무늬와 먹이는 일관된 구조를 이루기 때문에 하나의 세계로 되어 있으나, 독과 악취는 또 다른 행렬상에 독립적인 세계로 주어진다. 왜냐하면, 먹이와 독의 존재는 독립적이기 때문이다. (위치상의 배타성을 제외하면.) 독립적인 자극의 분포는, 독립적인 세계를 의미한다. 즉 우리는 후각세계, 미각세계, 촉각세계, 명암세계 등을 따로따로 가지고 있다.(하나의 감각계는 하나의 세계를 형성한다.) 우리는 그것들을 통합하여 하나의 세계로 인지하는 것이다.(본 글에서는 독을 포함한 실험결과를 제시하지 않는다. 그 결과는 추후 다른 글에서 다루겠다.)
세계::줄무늬
세계를 학습하고 적응한다는 것은, 세계의 규칙을 이해하고, 이에 따라 효과적인 행동을 선택할 수 있다는 것이다. 이해라든가 선택이라는 단어의 의미에 대해선 접어두고, 일단 로봇이 효과적인 행동을 보인다면 이해하고 선택한 것이라고 말하도록 하자.
만약 음식이 무작위적으로 배치되어 있다면, 로봇이 선택할 수 있는 행동은 없다. 그는 세계로부터 어떤 일관성도 제공받지 못하기 때문에, 그저 한 방향으로만 계속 가는 것이면 충분하다. 거기에는 어떤 학습이나 지능도 필요 없으며, 그저 프로그램된 본능이면 충분하다.
그러나 세계가 일관된 구조를 제공할 때는 얘기가 달라진다. 예컨대 음식에서 냄새가 난다고 가정하자. 그러면 로봇은 무작위로 달릴 게 아니라, 냄새가 나는 방향, 냄새가 점점 강해지는 방향으로 움직이면 보다 효과적으로 음식에 도달할 것이다. 여기에 일관성이 요구된다. 즉 1)음식이 있으면 냄새가 난다. 2) 냄새는 음식에 가까울수록 강해진다. 3)냄새는 모든 방향에 동일한 방식으로 전파된다. 이런 일관성으로부터 로봇이 냄새를 감지하는 순간 그쪽을 향한다면, 이는 보다 지능적인 대응이라고 말할 수 있을 것이다.
그러나 여기에도 지능을 배제할 수도 있다. 단순한 본능으로도 음식을 향할 수 있다. 유명한 ‘수레’의 예에서 보았듯이, 좌측 센서의 감지신호를 우측 바퀴에 전달하는 방식만으로도, 로봇은 방사형 감각에 대해 그 근원을 향해 움직일 수 있다. 그러므로 우리는 이러한 내재된 방식을 제거하고, 순수히 학습에 의해 찾아가도록 해야 할 것이다.
지도. 교차점의 밝은 점은 음식, 붉은 점은 로봇이다. 로봇이 지나간 교차점에는 음식이 없어진다.
줄무늬는 이러한 일관성의 일환이다. 가로, 세로의 줄무늬는 무한히 뻗어 있고, 음식은 줄무늬간의 교차점에 존재하므로, 가장 효과적인 행동패턴은 줄무늬를 발견하는 순간부터 줄무늬를 따라 직선운동을 하는 것이다. 그러나 하나의 줄무늬 위의 음식은 한계가 있으므로(로봇이 음식에 도달하면 음식은 소모된다.), 더 효과적인 방식은 때때로 교차점에서 다른 줄무늬를 따라가거나, 계단식으로 움직이는 것이다.
로봇
로봇::시야
로봇은 크기를 갖지 않는다. 즉, 행렬상의 하나의 점이다. 로봇은 직진하거나, 멈춰있거나, 좌로 회전하거나, 우로 회전하는 네 가지 운동 상태를 가질 수 있다. 그리고 로봇은 세계와 음식물에 대한 감각을 갖는다. 즉, 로봇을 중심으로 5*5의 시야를 갖는다. 로봇은 자기 주변의 25칸에 대한 정보를 이용할 수 있다. 이 시야 내에서, 일반 공간은 0, 줄무늬는 1, 먹이는 2로 표현된다.
로봇은 또한 몇 가지 다른 감각을 가지고 있다. 1)에너지, 2)스트레스, 3)감정, 4)먹이의 접촉여부, 5)자신의 운동 상태가 그것이다.
로봇::에너지
로봇은 에너지가 0이 되면 죽는다. 에너지는 서서히 감쇄되며, 이동시에는 더욱 감쇄된다. 음식을 먹으면 올라가고, 에너지가 일정 수준 이하가 되면 감각기관은 신호 - 스트레스 - 를 발생시킨다. 에너지가 낮아질수록 스트레스의 유입은 증가된다.
로봇::감각피질
로봇의 감각정보는 피질을 거쳐 범주화된다. 줄무늬 시각의 경우, 25칸에 대해 3가지 가능성이 존재하므로 3의 25승의 가능성이 존재한다. 이는 지나치게 많은 수준이며, 특히 그런 가능성들 중 대부분(줄무늬가 중간에 끊긴다거나)은 실제로 결코 발생하지 않는다. 그러므로 나는 로봇이 선택할 수 있는 상황의 최대크기를 200가지로 제한하였다. 이것이 1차 피질의 크기이며, 로봇의 상황감각의 인지력은 이 크기에 제한된다. 로봇은 시야상황의 모든 경우를 일단 200가지 기억패턴중 하나로 결정해야 한다.
1차 피질로 제한하는 것 역시 너무 많은 자유도를 준다. 1차 피질을 거친 정보는 또 그 빈도와 유사성에 의해 2차 피질을 거치면서 더욱 압축된다. 2차 피질에서 표현되는 표상의 수는 50개로서, 로봇이 인식가능한 상황은 1/4로 줄어든다. 만약 더욱 복잡한 감각계를 가진 존재라면, 피라미드식 계층구조의 피질구조로 인해 인식가능한 표상은 체계적으로 줄어들 것이다.
로봇::운동피질
감각뿐 아니라, 운동에도 체계화가 필요하다. 물론 이 로봇은 네 가지 운동 상태 밖에 갖지 않지만, 실제 동물의 경우에는 그렇지 않다. 만약 중추신경이 ‘앞으로 달려라’라는 명령을 내리면, 이 정보는 운동피질을 거치면서 세분화되고 구체화된다. 앞으로 달리라는 명령은 허리와 앞다리, 뒷다리를 교차하며 움직이라는 명령으로 세분화되고, 앞다리를 움직이라는 명령은 상박을 위로 돌리며 하박을 쭉 펴고, 발꿈치를 뒤로 당기라는 명령 등으로 세분화된다.
물론 발꿈치를 펴라는 명령 역시 뒤꿈치에 연결된 근육을 수축시키고, 반대쪽 근육을 이완시키라는 등의, 매우 구체적인 근육운동으로 환원된다. 이렇듯 정교화된 일련의 운동을 함수화하여 저장하고 수행하는 것은 소뇌의 역할이다.
이 로봇의 경우엔 근육이 세 개(좌로, 우로, 앞으로)밖에 없기 때문에 운동이 공간적으로 세분화되진 않는다. 그저 ‘앞으로 계속가라’는 직진을 연속 3번 한다거나, ‘뒤로 가라’는 좌로 두 번 돌고 앞으로 한 칸 가는 정도로 분해된다. 물론 이 운동 피질의 형성 역시 학습을 통해 이루어진다.
로봇::표상 pool
로봇의 핵심 구조이다.
감각기관과 피질을 거친 정보는 하나의 표상으로 집약된다. 이 때 표상을 나타내는 단위는 신경세포처럼 활성화되고, 그 활성을 연결된 다른 표상단위로 전파한다. 그 형태의 유사성은 있지만 이 표상단위는 신경세포 그 자체는 아니다. 아마도 일단의 신경세포의 집단으로 이루어진, 단일한 표상을 담당하는 추상적 존재일 것이다. 이에 대한 명칭이 필요하겠으나, 일단은 표상단위라고 부르겠다.
표상풀
표상 풀은 수많은 표상단위들이 끊임없이 흥분을 전파하며 출렁거리는 바다의 표면과도 유사하다. 물이 출렁거리는 풀장을 떠올려보라, 한쪽에선 물이 간헐적으로 흘러들어오는 유입구가 있고, 반대쪽에는 수면 가까이 물이 빠져나가는 구멍들이 있다. 물이 흘러들어오는 패턴에 따라 수면은 요동친다. 그리고 그 요동에 의해 유출구로 물이 흘러 나간다.
유입구는 감각표상들에 해당한다. 유출구는 운동표상이다. 내부의 물은 말하자면 뇌의 연합뉴런 - 입력과 출력간의 관계를 제어하는 내부구조이다. 이들 역시 똑같은 표상단위로 이루어진다. 그러므로 감각표상단위가 50개, 출력표상단위가 20개, 연합표상단위가 30개라면, 이 100개의 표상단위가 로봇의 뇌를 연합령을 구성하며, 표상풀이 된다. 이들 연합표상단위는 뉴럴넷의 은닉층에 해당하지 않는다. 이들 간의 연결은 층위를 이루지 않으며, 입력단과 출력단은 때로는 직접, 때로는 많은 단계를 거쳐서 이루어진다.
모든 표상단위는 서로 연결가능하다. 즉, 연결가중치 행렬은 100*100이 될 것이다. 가중치는 초기에 동일하게 주어진다. 물론 인위적으로 특정 가중치간의 연결을 강화시켜 놓을 수 있다. 이 경우, 어떤 입력표상에 대해 어떤 출력표상이 선호될 것이다. 그것은 일종의 본능이 된다.
로봇::흥분
뉴럴넷과 유사하게, 표상단위는 일정량 이상의 입력이 유입되면 흥분한다. 흥분은 시간에 따라 감쇄하며, 자신의 흥분을 연결된 다른 표상단위에 전파한다.(물론 가중치를 적용해서) 동시에 흥분해 있는 표상단위간의 연결 가중치는 강화된다.(헵의 규칙) 그러나 가중치는 기본적으로 천천히 감쇄하기 때문에, 적절하게 강화되지 못하는 연결은 결국 소멸하게 된다.
가중치가 일정수준 이상을 넘어서면 영구화된다. 그러나 헵의 규칙에 의해 이 수준에 이르려면 수많은 동시흥분이 필요하기 때문에, 영구화되기에 보다 효과적인 방법은 감정을 이용하는 것이다.
감정이 발생하면, 현재 흥분이 남아있는 모든 표상단위간의 연결이 매우 강화된다. 이는 한 두차례만의 감정만으로 영구화에 이르게 될 만큼 강하다. 그러나 모든 감정이 똑같은 양으로 강화시키진 않는다. 극적인 감정이 극적인 강화를 만든다.
로봇::변연계
변연계는 스트레스의 변화를 감시하여 감정을 일으킨다. 감정은 표상풀로 전달되어 연결을 강화시킨다. 이에 대해선 다른 글, <감정의 원리 : 스트레스와 감정>을 참조하라.
로봇::학습기
피질의 형성을 위해, 로봇에는 학습의 기간이 주어진다. 학습기는 정신분석학에서 말하는 신체기에 해당한다. 이 때 감각인식 자체가 흥분을 일으키므로, 모든 감각상황에서 피질의 형성이 일어난다. 1차감각피질의 형성이란, 25개의 시야를 포함한 모든 감각자극들로부터의 200가지 패턴을 추출함을 의미한다. 구체적으로는, 가능한 감각자극의 조합들의 200순위까지의 경쟁을 말한다. 즉, 어떤 감각상황이 자주 발생할수록, 이들의 순위는 올라간다.
로봇::스트레스와 감정
이 모델에서 로봇에게 고통을 줄 수 있는 것은 오직 하나 - 에너지의 부족 뿐이다. 에너지가 일정수준 이하로 떨어지면 급격히 스트레스를 생성한다. 그러므로 감정이 발생하며, 이 감정은 ‘배고픔’이 될 것이다. 음식물에 도달하면 에너지가 회복되고, 스트레스의 유입은 급격히 줄어든다. 이 때 감정이 발생하며, 이 감정은 ‘포만감’일 것이다.
로봇::운동피질
운동피질은 <하나의 운동패턴>을 <몇 개의 기본운동의 연합>으로 매칭시키는 구조이다. 이 피질의 형성과정은 1차 감각피질의 형성과 유사하다. 다만 감각자극이 몇 개의 순차적인 운동신호로 바뀌었을 뿐이다. 감각의 경우엔 여러 신호가 동시에 접수되지만, 이 로봇의 경우에 운동신호는 오직 네 가지 운동신호(정지, 앞, 좌로, 우로)가 있을 뿐이며, 이들 운동이 동시에 일어날 수 없다는 점에서 사실상 하나의 근육밖에 없다고도 말할 수 있다. 그러므로 로봇의 운동패턴은 ‘여러 근육의 협업’이 아니라, ‘하나의 근육의 순차적 패턴’이 된다. 즉 감정이 발생하기 직전(단기기억 상태)의 근육 움직임의 기억(자신의 운동신호 방출 자체가 감각입력으로 피드백 된다.)이 하나의 패턴으로써 운동피질에 저장된다. 이를 빈도에 의해 정렬하면, 감정이 발생하기 전에 주로 했던 행동이 패턴으로써 기억된다.
결과
결과::시뮬레이션 과정
본 시뮬레이션을 수 십차례에 걸쳐 시행했으며, 이에 적절한 초기 에너지 값, 감쇄파라미터, 먹이의 빈도 등 수많은 초기값은 경험적으로 정하였다. 초기 에너지가 너무 적으면 학습이 충분히 일어나기 전에 죽고, 너무 많으면 안 죽거나 역시 적절한 학습 기회를 놓치곤 하기 때문이다. 결과는 세계행렬상의 대상들과 로봇을 시각적(애니메이션)으로 표현하였으며, 매 턴마다 에너지상태, 움직임과 주요 사건(감정발생, 음식섭취)들을 로그 기록하였다.
시뮬레이션 후에는 에너지, 스트레스 등의 변화를 그래프를 통해 관찰할 수 있었다.
그러나 결국 학습의 성패를 볼 수 있는 것은 로봇의 움직임으로, 수차례의 시뮬레이션 결과 다음과 같은 형태의 로봇들이 관찰되었다.
결과::무작위형
어떤 규칙성도 찾기 힘들만큼 무작위적으로 움직이는 경우이다. 로봇은 히스테릭하게 움직이다가 우연히 음식을 먹기도 한다. 하지만 어떤 패턴을 보기는 힘들고, 운동의 무작위성으로 인해 멀리 움직이지도 못하다가 사망한다.
결과::단순 반복행동형
아주 단순한 행동의 반복으로 고착된다. 예컨대, 좌로 세 칸, 우로 세 칸을 무한히 반복하는 식이다. 처음엔 무작위적으로 움직이다가 어떤 이유로 단순반복에 고착되면, 죽을 때까지 이 운동만을 반복한다.
결과::복잡 반복행동형
이리저리 움직이며 먹이를 한 두번 먹다가, 복잡한 반복운동으로 고착된다. 즉 일정한 크기의 폐곡선 상을 회전한다거나, 20회의 움직임 정도를 주기로 복잡한 운동을 반복하거나 하는 식이다. 관찰하기에 매우 재미있으며, 이른바 연쇄기억을 형성할 수 있는 운동패턴의 길이를 보여준다.
결과::직선운동형
무작위 운동으로 음식을 접하고, 줄무늬를 따라 직진운동을 배운 경우이다. 흔히 나타나며, 계속적 직진운동만을 고집하다 사망한다. 효과적이긴 하나 최초의 학습으로부터 진전하지 못한 경우다.
결과::다양한 직선운동형
역시 줄무늬를 따라 움직이나, 반대방향으로 방향을 바꾸기도 하고, 때론 교차점에서 회전하여 다른 줄무늬를 타기도 한다. 꽤 이상적인 학습결과이다.
결과::계단운동형
복잡한 지형에서의 다양한 섭식경험 후, 로봇은 줄무늬를 따라 계단식으로 움직인다. 즉, 교차점을 만나면 음식을 먹은 후 회전한다. 가장 이상적인 방식이며, 루트 상에 음식이 떨어질 때까지 움직이다 사망한다.
결과::학습의 구조적 결과
사망한 로봇의 두뇌를 해부해 보자. 그러면 피질과, 표상풀을 관찰할 수 있다. 그러나 아쉽게도 이들을 관찰한다고 해서 무언가를 얻어내긴 어렵다. 다만 학습이 잘 이루어진 로봇의 경우엔 피질을 거의 다 활용했으며,(학습이 안 되거나 단순반복에 고착된 로봇은 피질의 일부가 쓰이지 않기도 한다.) 표상풀의 연결이 일부만 남고 상당수 소멸했음을 보여준다. 마치 인간이 성장함에 따라 시냅스가 점차 제거되는 것과 유사하다. 하지만 구체적으로 정량적으로나 정성적으로 측정하기는 요원하며, 이에 대한 방법론의 정립이 필요하다.
학습 전의 표상풀의 가중치 패턴
학습 후의 표상풀의 가중치 패턴
의미
그러므로 현재 본 시뮬레이션을 평가할 수 있는 방법은 로봇의 행동밖에 없다. 결과에서 말했듯, 시뮬레이션 결과는 본 모델이 의도한 데로, 로봇에게 스스로 세계를 배우고 행동할 수 있는 방법을 제시하였다. 일부 사례에서는 매우 지능적으로 보이는 행동을 보여줌으로써 고무적이라 할 수 있었다.
특히 본 모델은 가장 기본적인 행동패턴이나 학습방향조차 주어지지 않은 상태에서, 표상의 생성과 행동의 학습까지 단일한 메커니즘에 의해 이루어졌다는 점, 그리고 생리학적/심리학적인 원리로부터 도출된 시뮬레이션이라는 점에서 그 의의가 있으며, 본 결과는 이와 같은 방식이 크게 잘못된 부분이 없다는 것, 다시 말해 앞으로의 연구에 있어 기본적인 구조로 채택할 수 있다는 것을 말하고 있다.
'강한인공지능' 카테고리의 다른 글
인공지능을 구현하기 위해 선결되어야 할 7가지 문제 (0) | 2020.05.04 |
---|---|
바이오 스피어 3 (0) | 2020.05.04 |
감정의 원리 : 스트레스와 감정 (0) | 2020.05.04 |
인공마음 - 인공지능 연구의 올바른 지향점 (0) | 2020.05.04 |
반복, 예측, 그리고 음악 (0) | 2020.05.04 |