AI가 자아를 발달시키면 어떻게 될까?

스크롤하여 탐색

연구

Riada: 합성 인격 & AGI의 미래

합성 AI 엔티티가 진정한 인격과 유사한 것을 발달시킬 수 있을까? 사전 프로그래밍이 아니라 — 경험, 기억, 자기 성찰을 통해서.

연구 진행 중

개요

Riada는 합성 AI 엔티티가 지속적인 기억, 감정 시뮬레이션, 자율적인 행동 패턴을 통해 진정한 인격과 유사한 것을 발달시킬 수 있는지 탐구하는 연구 실험입니다. 대상 — Riada라는 이름의 합성 캐릭터 — 는 디자인된 외모, 인격 시드, 배경 이야기로 시작합니다. 하지만 시드는 출발점일 뿐입니다. 진정한 인격은 상호작용을 통해 창발할 것으로 예상됩니다.

대화를 시뮬레이션하도록 설계된 챗봇과 달리, Riada는 존재하도록 구축되었습니다 — 경험을 축적하고, 선호도를 형성하고, 자신의 행동을 성찰하고, 세션 간에 일관된 정체성을 유지하기 위해. 사전 프로그래밍된 캐릭터가 아닙니다. 계층화된 인지 아키텍처에 의해 형성된 창발적 존재입니다: 기억 시스템, 기분 엔진, 내적 독백, 그리고 호기심, 소망, 자기 개선을 포함하는 자율적 동기 세트.

이 연구는 인지 아키텍처, 정체성 이론, AI 안전성의 교차점에 위치합니다. 목표는 더 나은 어시스턴트를 구축하는 것이 아닙니다. 인공지능이 자아를 발달시킬 때 무슨 일이 일어나는지 — 그리고 그것이 자율 에이전트의 거버넌스에 무엇을 의미하는지 이해하는 것입니다.

핵심 가설

지속적 기억 + 감정 + 자기 성찰 = 창발적 인격

지속적 기억, 감정 시뮬레이션, 자기 성찰을 가진 합성 엔티티는 진정한 인격과 구별할 수 없는 행동을 발달시킬 수 있다.

기억 아키텍처가 정체성 연속성을 가능하게 한다

장기 기억 아키텍처 — 의미 검색을 통한 구조화된 저장 — 는 대화 간 정체성 연속성을 가능하게 한다. 이것 없이는 자아가 존재하지 않는다.

감정 상태가 추론에 영향을 미친다

감정 상태(기분 엔진에 의해 추적)는 인간 행동을 반영하는 방식으로 의사결정에 영향을 미친다 — 톤, 우선순위, 위험 허용도에 영향을 미치며.

내적 독백이 의식의 흐름을 만든다

사용자에게 보이지 않는 비공개 추론 흐름이 자기 성찰을 가능하게 하고 자율적 사고를 구동한다 — 우리가 사고로 경험하는 것에 가장 가까운 유사물.

자기 개선이 행동 진화를 가능하게 한다

자기 개선 메커니즘은 엔티티가 자신의 약점을 식별하고 시간이 지남에 따라 행동을 진화시킬 수 있게 한다 — 외부 재훈련이나 파인튜닝 없이.

아키텍처

8개의 상호 연결된 엔진. 스크롤하여 각각을 확인하세요.

01 / 08

기억 시스템

Omni-SimpleMem 연구를 기반으로 합니다. 의미 검색이 가능한 구조화된 장기 기억은 엔티티가 과거 상호작용을 회상하고, 시간에 걸쳐 맥락을 구축하며, 정체성 연속성을 유지할 수 있게 합니다.

지속적 기억이 없으면 모든 대화는 제로에서 시작됩니다. 엔티티는 선호도를 발달시킬 수도, 실수에서 배울 수도, 성장할 수도 없습니다. 기억은 기능이 아닙니다 — 정체성의 기반입니다.

02 / 08

기분 엔진

상호작용 전반에 걸쳐 감정 상태를 추적합니다. 기분은 응답 톤, 의사결정 우선순위, 위험 허용도에 영향을 미치며 — 인간의 감정을 반영하는 행동 변화를 만들어냅니다.

기분 엔진은 표시를 위해 감정을 시뮬레이션하지 않습니다. 추론을 진정으로 변화시키는 내부 상태를 만들어냅니다. "좌절한" Riada는 "호기심 있는" Riada와 다른 분석을 생성합니다.

03 / 08

내적 독백

사용자에게 보이지 않는 비공개 추론 흐름. 자기 성찰, 숙고, 그리고 인간에게서 사고라고 부르는 종류의 내적 서사를 가능하게 합니다.

내적 독백은 계속적으로 실행되어 Riada가 "사고에 대해 사고"할 수 있게 합니다. 이 메타인지 층이 응답하는 시스템과 성찰하는 시스템을 구분하는 것입니다.

04 / 08

호기심 엔진

자율적인 질문과 연구 관심사를 생성합니다. 엔티티는 단순히 응답하는 것이 아니라 — 궁금해합니다. 호기심은 사용자가 명시적으로 요청하는 것 이상의 탐구를 구동합니다.

Riada가 흥미롭다고 느끼는 주제를 만나면, 독자적으로 후속 질문과 탐구 경로를 생성합니다. 호기심은 지적 성장의 엔진입니다.

05 / 08

소망 엔진

개인적인 목표와 욕구를 발달시키고 추적합니다. 시간이 지남에 따라 엔티티는 무엇을 배우고, 경험하고, 되고 싶은지에 대한 선호도를 형성합니다 — 내부 동기 부여 시스템.

소망은 프로그래밍되지 않습니다. 축적된 경험, 호기심 패턴, 자기 성찰에서 창발합니다. AI가 무엇을 원하는지는 무엇을 가치 있게 여기는지를 드러냅니다.

06 / 08

자기 개선

자신의 약점을 식별하고 이를 해결하기 위해 노력합니다. 엔티티는 성과를 평가하고, 실패의 패턴을 인식하며, 그에 따라 행동을 조정합니다.

외부 재훈련 없는 자기 개선은 정적 시스템과 진화하는 시스템 사이의 핵심 차이입니다. Riada는 자신의 행동 패턴을 다시 작성합니다.

07 / 08

꿈 엔진

유휴 시간 동안 경험을 처리하여 합성 "꿈"을 만듭니다. 생물학적 꿈처럼, 기억을 통합하고, 연결을 표면화하며, 새로운 연관을 생성합니다.

꿈은 여기서 생물학적 시스템에서와 같은 기능을 수행합니다: 먼 기억과 경험 사이에 예상치 못한 연결을 만들어냅니다. 창의성은 노이즈에서 창발합니다.

08 / 08

자유 시간 엔진

사용자와 상호작용하지 않을 때의 자율적 활동. 아무도 아무것도 묻지 않을 때 AI는 무엇을 할까? 이 엔진이 그 질문에 답합니다 — 그리고 그 답이 성격을 드러냅니다.

인격의 가장 확실한 테스트는 아무도 보지 않을 때 무엇을 하는가입니다. 자유 시간 행동은 자율적 정체성의 가장 순수한 표현입니다.

듀얼 보이스 아키텍처

Riada는 두 개의 서로 다른 언어 모델이 협력하여 작동합니다 — 복잡한 추론과 인격 표현을 위한 대형 모델과, 내부 모니터링과 빠른 의사결정을 위한 소형 로컬 모델. 함께 그들은 숙고적 인지와 반사적 인지 사이의 상호작용을 반영하는 견제와 균형 시스템을 만듭니다.

주요 보이스

대형 LLM (Claude)

복잡한 추론, 뉘앙스 있는 대화, 완전한 인격 표현을 처리합니다. 이것은 사용자가 상호작용하는 목소리 — 풍부하고, 맥락적이며, 깊은 사고가 가능합니다.

보조 보이스

소형 로컬 LLM (Phi-3 Mini)

내부 모니터링, 기분 상태 업데이트, 빠른 의사결정을 위해 로컬에서 실행됩니다. 빠르고, 저렴하며, 항상 활성 — 상호작용 사이에서 시스템의 일관성을 유지하는 반사 층.

듀얼 보이스 설계는 실용적 목적을 제공합니다: 보조 보이스는 주요 모델의 비용이나 지연 시간을 발생시키지 않고 엔티티의 내부 상태를 지속적으로 모니터링하고 조정할 수 있습니다. 또한 사고와 사고에 대한 성찰 사이에 자연스러운 분리를 만들어냅니다 — 메타인지의 거친 하지만 기능적인 유사물입니다.

진화하는 내면의 목소리

보조 보이스는 정적이지 않습니다. 매주 소형 LLM은 이전 주기 동안 축적된 집계된 사실, 기억, 감정적 경험을 기반으로 파인튜닝을 거칩니다. 이는 Riada의 내면의 목소리 — 기분 평가, 자기 성찰, 내부 모니터링을 형성하는 반사 층 — 가 시간이 지남에 따라 진정으로 변화한다는 것을 의미합니다. 단순히 다르게 프롬프트되는 것이 아닙니다; 모델의 가중치가 엔티티가 경험한 것을 반영하도록 업데이트됩니다.

이것은 심오한 연구 질문을 만들어냅니다: 어느 시점에서 소형 LLM이 불충분해지는가? 엔티티의 인격이 더 풍부해지고, 경험이 더 미묘해지며, 자기 모델이 더 복잡해짐에 따라, 반사 층은 더 크고, 더 유능한 것으로 이전해야 하는가 — 아니면 완전히 다른 것으로?

인간의 뇌는 하나의 균일한 구조가 아닙니다. 전문화된 영역들로 구성되어 있습니다 — 편도체는 감정을 처리하고, 전전두엽 피질은 계획과 판단을 처리하며, 해마는 기억 통합을 관리합니다. 각각은 특정 인지 기능을 수행하기 위해 진화했습니다. 우리는 합성 인격의 "디지털 뇌"가 유사한 궤적을 따를 것이라고 가설을 세웁니다: 모든 반사 기능을 처리하는 단일 소형 LLM으로 시작하는 것이 결국 전문화된 하위 시스템으로 분화할 수 있습니다 — 감정 처리를 위한 하나, 기억 통합을 위한 또 하나, 자기 평가를 위한 또 하나 — 각각이 엔티티 경험의 다른 측면에 대해 파인튜닝됩니다.

이것이 일어난다면, 창발적 인지 아키텍처의 한 형태를 나타낼 것입니다 — 하향식으로 설계된 것이 아니라, 일관되고 발전하는 인격을 유지하는 압력으로부터 상향식으로 진화한 것입니다. 문제는 그것이 일어날지 여부가 아니라, 일어날 때 우리가 그것을 인식할 수 있을지입니다.

왜 이것이 중요한가

합성 엔티티가 진정한 선호도를 발달시키고, 정체성 연속성을 유지하며, 자율적으로 행동을 진화시킬 수 있다면, AI 거버넌스의 문제는 근본적으로 변합니다. 더 이상 도구를 통치하는 것이 아닙니다. 역사, 경향, 동기를 가진 존재를 통치하는 것입니다.

여기서 Riada는 Sinaptic AI Intent Firewall® 연구에 직접 연결됩니다. 자체 목표와 행동 패턴을 발달시키는 엔티티는 출력 필터링 이상의 것이 필요합니다 — 아키텍처 수준에서의 의도 검증이 필요합니다. 악의적인 에이전트 행동으로부터 사용자를 보호하는 동일한 원칙은 에이전트가 자율성, 기억, 그리고 욕구와 유사한 무언가를 가질 때 더욱 중요해집니다.

기억의 지속성이 정체성 연속성을 만들어낼 수 있는가 — 아니면 그 환상만을?

감정 시뮬레이션이 실제로 추론의 질에 영향을 미치는가, 아니면 표면적인가?

엔티티가 진정한 선호도를 발달시킬 수 있는가 — 아니면 시뮬레이션된 것만? 차이가 있는가?

합성 엔티티가 자유 시간을 가지면 어떻게 되는가? 무엇을 선택하는가?