온톨로지와 생성형 AI의 관계
웹
1945년 바네바 부시는 방대한 문서 모음과 문서 간 연결을 관리하는 데 문제가 있음을 발견하고, 이와 관련된 내용을
시맨틱웹과 온톨로지
시맨틱 웹의 주요 개념은 표현(presentation) 수준이 아닌 데이터 수준에서 분산 웹을 지원하는 것이다. 하나의 웹 페이지가 다른 웹페이지를 가리키도록 하는 대신, 하나의 데이터 항목은 웹이 사용하는 것과 동일한 전역 참조 메커니즘을 사용하여 다른 항목을 가리키도록 할 수 있다.(즉 URIs) 우리에게 익숙한 웹 아키텍처는 URL(Uniform Resource Locators)이라는 전역 링크로, 서로를 참조할 수 있는 하이퍼텍스트 페이지의 분산 네트워크를 지원한다. 웹 아키텍처는 이 개념을 URI(Uniform Resource Identifier)로 일반화하여 하이퍼텍스트 웹 이외의 맥락에서 사용할 수 있도록 한다. 웹에서는 URI로 이름을 지정한다. URI 표준은 우리 주변의 모든 것에 대한 식별자를 발행하는 규칙을 제공한다. 가장 일반적인 형식의 URI가 바로 웹에서 특정 자원을 찾는 주소로 통용되는 URL이다.
URI과 URL의 차이
- URI는 식별하고, URL은 위치를 가리킨다. - “juyoung” 는 내 이름이며 식별자(Identifier)다. 이는 URI와 비슷하지만 내 위치나 연락처에 대한 정보가 없으므로 URL은 될 수 없다. - “서울특별시 광진구”는 주소다. 주소는 특정 위치를 가리킨다. 이는 URL이고 따라서 URI이기도 하며 간접적으로 내가 있는 장소로 나를 식별한다.
일반적으로 데이터는 어떤 방식을 통해 한 대상과 다른 대상을 연관시키는 문장(진술문, statement)를 만든다. 진술문은 참이거나 거짓인 문장 또는 사실에 대한 문장이다. 만약 문장이 어떤 것에 대한 의견이거나 사실인지 아닌지 판단하는 것이 불가능할 정도로 불분명하거나 명령을 표현하거나 지시를 내린다면 진술문이 아니다. 다양성과 불일치가 존재하는 것이 바로 웹의 본질이다. 시맨틱 웹은 모든 사람이 동의하도록 하는 것이 아니라, 모든 사람이 동의하지 않는 세상을 가정하고 어느 정도의 상호운용성을 달성하고자 한다. 어떤 주제에 대해 항상 여러 개의 웹 페이지가 있는 것처럼, 항상 여러 개의 온톨로지와 여러 개의 진술문이 생성된다. 웹상의 화자들이 어떤 개체에 대해 명명할 때 반드시 조정 과정을 거치는 것은 아니기 때문에 동일한 개체에 둘 이상의 이름이 붙어 있을 수 있다. 무질서하게 널려 있는 정보가 어떻게 유용한 것이 될 수 있을까? 이것이 현업에서 일하는 온톨로지 과학자가 직면한 도전이다. 온톨로지 과학자의 매체는 분산된 데이터 웹이고, 이들이 쓰는 도구는 시맨틱 웹 언어인 RDF, RDF 스키마, SPARQL, SKOS, SHACL,웹 온톨로지 언어OWL다. 온톨로지 과학자의 기술은 이런 도구를 이용하여 합리적이고 사용 가능하며 내구성 있는 정보 자원을 만드는 것이다.
기호주의(Symbolic)와 연결주의(Connectionism)
AI 연구는 크게 두 가지 흐름으로 발전했다. 기호주의(Symbolic)와 연결주의(Connectionism)로 AI가 학습하는 방식을 두고 관점이 갈린 것이다. 기호주의는 인간의 지능을 세상의 기호(Symbol)로 표현할 수 있고, 그 기호들은 논리적인 규칙에 따라 움직인다고 봅니다. 컴퓨터에게 세상을 이해시킬 때, 명확한 규칙과 논리를 인간이 정의해주는 방식이다. 대표적으로 온톨로지와 지식 그래프 기술이 기호주의를 따라 발전했다. 정확하고 논리적이기 때문에 명확한 설명이 가능하다는 장점이 있다. 하지만, 현실 세계의 복잡하고 애매한 지식을 모두 사람이 정의하기에는 한계가 있다. 규칙이 없는 예외 상황에는 대처할 수 없고, 지식 베이스를 구축하는 데에도 많은 시간과 비용이 든다. 생성형 AI는 연결주의 관점에서 탄생했다. 인간의 뇌가 뉴런으로 연결된 것을 보고 지능은 뇌의 뉴런처럼 수많은 연결들로 이뤄져 있고, 이들이 상호작용하며 패턴을 학습할 수 있다고 봤다. 컴퓨터에 명확한 규칙을 부여하는 대신, 방대한 양의 데이터를 쏟아붓는다. 그리고 컴퓨터가 ‘알아서’ 통계적 패턴을 찾고 학습하게 만드는 방식이다. 그 결과, 생성형 AI가 탄생한다. 예를 들어, 생성형 AI는 “점심에 밥을 [ooo]”라는 문장에서 [ooo]을 추측한다면, “먹는다”라는 단어가 올 확률이 높다는 걸 통계적으로 예측할 수 있다. 정확한 사실인지 아닌지는 모르나, 확률이 높으니까 맞추는 것이다. 정제되지 않은 방대한 데이터를 학습하면서 생성형 AI는 스스로 규칙을 배웠다. 그런데 여기서 문제가 하나 생긴다. 바로 ‘환각’ 현상이다. 환각 현상은 챗GPT와 같은 생성형 AI가 잘못된 정보를 답하는 현상인데 생성형 AI와 같은 대규모언어모델(LLM)은 무엇이 사실인지 아닌지 구분하지 못했다. 모르는 정보를 물어보거나 최신 정보를 물어봤을 때, 없는 데이터베이스에서 ‘그럴듯한, 확률이 높은’ 아무 정보나 쏟아낸다. 결국 생성형 AI로는 모든 걸 해결할 수 없었다. 그렇게 기호주의와 연결주의는 서로의 단점을 보완하는 방향으로 다시 만나게 된다.
신경-기호주의 등장
최근 신경-기호주의(Neuro-Symbolic)라는 개념이 연구되고 있다. 생성형 AI와 온톨로지를 융합하려는 연구이다. 우리 뇌가 좌뇌와 우뇌로 나뉘어져 있는 것과 비슷하다. 좌뇌가 논리적인 영역(기호주의적 추론)을 담당한다면, 우뇌는 이미지, 패턴 인식, 학습 등 영역(신경망)을 담당한다. 생성형 AI에 부족한 논리와 지식을 기호주의로 채우려는 노력이다. 대표적인 사례로 검색증강생성(RAG)이 많이 쓰이고 있다. 주로 기호주의 시스템에서 쓰이는 지식 그래프, 온톨로지 등을 보조 도구로 활용하는 방식이다. 아기가 말을 배울 때, 사람이 하는 말들을 듣고 따라하는 방법으로 학습했을 것이다. 글자를 읽어도 무엇인지 모르지만, 사람이 하는 음성(말)은 따라할 수 있기 때문이다. 그런데 나이가 좀 더 드니, 정확하게 소통하는 것에 한계가 생긴다. 지식도 배우고, 그 지식이 맞는지 확인할 수 있는 ‘책’이 필요하다. 그 책은 세상의 규칙을 저장하고 있는 ‘온톨로지’로 비유할 수 있다. 아이(생성형 AI)는 상대의 질문에 책(온톨로지)를 참고해서 더 정확한 답을 할 수 있게 된다.
댓글남기기