논문 리뷰, 전자책 표준을 이용한 시각장애인용 점자전자책 개발
내가 구현해보고 싶었던 전자책을 점자책으로 변환하는 프로그램에 대한 논문을 발견했다. 2011년에 발표된 오래된 자료이나 연구가 제기하고 있는 문제 설정이 내가 앞으로 도전하고 싶은 분야라 리뷰를 하게 되었다.
문제 제기
이 논문은 ‘만일 EPUB 규격으로 작성된 전자책을 음성 또는 점자로 쉽게 변환이 가능하다면?’이란 질문에서 출발한다. EPUB 규격으로 작성된 다양한 종류의, 그리고 방대한 양의 전자도서를 시각장애인용 도서로 확보할 수 있기 때문에 해당 연구의 필요성이 설득력을 갖는다.
해당 논문은 전자책 표준인 EPUB 규격으로 작성된 전자책을 이용하여 시각장애인용 점자전자책으로 변환하는 기법을 설계하고 구현하였다.
설계
본 논문에서는 EPUB 2.0 규격 전자책을 시각장애인이 활용하기 위한 필터링 기술과, 필터링된 텍스트를 점자 코드로 변환하여 점자 디스플레이로 제공하는 기술을 적용한 점자전자책을 제안한다.
1. EPUB 규격 필터링을 통한 텍스트 추출
시각장애인이 EPUB 규격을 사용하는 데는 어려움이 따른다. 시각장애인은 전자책의 다양한 멀티미디어나 활자 효과를 필요로 하지 않으며, 전자책의 텍스트 내용의 정확한 전달이 시각장애인용 전자책에서 가장 중요한 이슈이다.
따라서 EPUB 규격을 시각장애인용 콘텐츠로 제공하기 위해서는 필터링 기술이 필요하다.
EPUB 규격은 텍스트, 멀티미디어, 활자 효과를 item으로 정의하고 XML/HTML 코드로 각각 구성된다. 본 논문에서는 필터링 기술을 이용하여 XML/HTML 코드를 분석하여 멀티미디어, 활자 효과에 대한 item을 제거 하여 순수한 텍스트를 추출한다.
- ZIP 압축을 해제하면 .opf 파일, 각 장에 대한 XML/HTML 파일, 멀티미디어와 같은 콘텐츠 파일이 생성된다.
- 1차 필터링은 멀티미디어 콘텐츠 파일에 대한 삭제이다. 필터링 대상에 해당되는 멀티미디어, 활자 모양에 해당하는 GIF, JPEG, PNG, SVG, DTBook, CSS 파일을 삭제한다. 파일을 삭제한 뒤 .opf 파일로부터 각 장에 대한 텍스트를 가지고 있는 XML/HTML 파일에 대한 위치와 순서를 가지고 온다.
- 2차 필터링은 가져온 XML/HTML 파일을 분석하여 필터링한다. 각 장의 텍스트를 가지고 있는 XML/HTML 형태의 파일들은 .opf에서 정의한 item을 사용하고 있다. 해당되는 item의 미디어 타입을 확인하여 필터링한다. 1장부터 마지막 장까지 필터링을 수행 하면서 전체 장을 종합한다. 필터링된 종합된 장 텍스트는 .eun 파일로 저장된다. 저장된 .eun 파일에는 책 제목, 저자, 책 텍스트가 저장된다. 최종적으로 eun 파일은 순수한 유니코드 텍스 트 정보를 가지게 된다.
2. 텍스트를 점자로 변환
점자 디스플레이(flexible braille display)를 통하여 EPUB 규격에서 추출된 텍스트를 전달하기 위해서 텍스트를 점자로 변환하는 알고리즘이 필요하다.
본 논문에서는 한글에 대한 점자 변환 알고리즘은 김풍민 외 2인이 1993년 한글 및 한국어 정보처리 학술발표 논문집에 발표한 한글점자번역시스템의 설계 및 구현에서 제안한 알고리즘을 활용한다. 해당 점자 변환 알고리즘에서는 기본적인 점자변환 기능을 모두 수행하고 있지만, 2006년도에 개정된 점자를 반영하지 못하고 있으며 영어에 대한 처리 과정이 필요하다. 이에 따라 본 논문에서 제안하는 시스템은 점자 변환 알고리즘의 기본 틀을 활용하고 있으며, 개정된 점자와 영어점자에 대한 지원을 부가하였다.
성능 분석
제안 시스템에 대한 성능분석은 EPUB 변환 알고리 즘의 변환의 정확도와 변환 시간, 그리고 점자디스플레 이 출력 시간에 대해서 측정하였다. 총 3권의 책에 대하 여 성능을 측정하였으며 정확도와 시간 측정 조건 및 환경은 다음과 같다.
- EPUB 버전 2.0 규격서에 정의된 형식의 전자책
- CPU : ARM9 S3C2440 400MHz
- 운영체제 : Windows CE 5.0
-
변환의 정확도 측정 EPUB 변환에 대한 정확도 측정에서 평균 97.3%를 보여주었다. 주간 잡지의 경우 일반 서적에 비해 정확도가 낮은 결과를 보였다. 삽입된 이미지의 캡션을 일반 텍스트로 처리하는데서 발생하는 문제점 때문이다. 더불어 나머지 일반 서적에 대해서도 표, 각주, 미주에 대한 처리가 제대로 이루어지지 않았다.
제안 시스템에서는 일반 텍스트를 대상으로 추출과정을 거치는데, EPUB에서는 XML/HTML 코드로 책 내용을 구현하며 이미지의 캡션,표 내부 내용,각주, 미주의 모든 텍스트가 일반적인 텍스트로 처리되기 때문이다. 따라서 시각 장애인에게 책 내용을 전달하는데 있어서 이미지 캡션이 삭제되지 않는 점, 표의 내용이 잘못 전달된다는 점이 문제점으로 남는다. 일반적인 책의 경우 이미지의 캡 션, 표, 각주, 미주를 사용하지 않지만 사용되는 경우에 정확도가 떨어진다는 단점을 가지고 있다. 하지만 텍스트 내용 변환에 있어서는 정확하다는 점을 보면 향후 EPUB 규격의 업데이트에 따라서 추가로 이미지나 표를 정확하게 변환할 수 있을 것으로 예측된다. -
변환 시간 측정 변환 과정에서 1초당 약 5000자를 변환하는 시간이 걸 린다는 것을 알 수 있다.책이 평균 10만 자로 구성되어 있으며 변환에는 평균 20초가 걸리게 된다.하지만 이러한 변환 작업은 한 번만 이뤄지게 되므로 시각장애인에게 큰 오버헤드로 작용되지 않는다.
-
점자디스플레이 출력 시간 시각장애인이 점자 디스플레이의 동작 내용을 눈으로 볼 수 없기 때문에 빠른 응답시간이 필요하다.페이지 전환에 있어서 수 초 이상의 지연이 발생한다면 기기의 오작동으로 예상할 수 있다.
점자디스플레이 출력 시간 측정은 변환된 전자책의 내용을 임베디드 기기에서 점자 디스플레이로 출력하는데 걸리는 시간을 측정하였다. 즉, 페이지 넘김 버튼을 누른 시간부터 점자 디스플레이에 출력된 시간을 측정하였다.
다음 페이지 출력 시간은 평균 0.5초의 시간이 걸렸고,이전 페이지 출력시간은 평균 0.6초의 시간이 걸렸다.
즉, 제안 시스템에 서는 1초 이내에 다음, 이전 페이지 전환이 완료되므로 시각장애인에게 빠른 응답 시간을 보장할 수 있다.
결론 및 제언
최근 전자책의 발전으로 전자책 도서들이 규격화되고, 많은 전자기기업체, 인터넷 서점을 통해서 다양한 종류의, 그리고 방대한 양의 전자책이 제작되고 있다. 이러한 방대한 양의 전자책을 시각장애인용 전자책으로 변환이 쉽게 된다면 시각장애인에 대한 정보 습득 욕구 해소에 많은 도움이 될 것으로 예상된다. 현재 구현된 시스템에서 사용한 점자디스플레이는 한 라인에 20개의 셀을 출력할 수 있는 라인형 점자디스플레이이다. 따라서 시각장애인이 책의 구성을 쉽게 찾기가 어렵다. 만일 한국의 Yanko Design Team에서 설계한 Braille E-Book의 태블릿 형식의 풀 스크린 형태의 점자디스플레이가 개발된다면 마치 인쇄되어 제본된 점자책을 읽는 정도의 효과와 전자책 고유의 내비게이션 기능이 확장될 수 있어 활용도가 더욱 높아질 것으로 예상된다.
논문 연구 기술 관련 현재 동향
위 논문을 요약하다 현재 전자책를 활용한 점자책 변환이 얼마나 이루어지는지 찾아보니 다음 두 건의 기사를 보니 여전히 난황을 겪고 있어보였다.
2023년도 기사인 전자책 뷰어, 시각장애인에겐 ‘그림의 떡’에 따르면 장애인 접근성을 지원하는 이퍼브 3.0(EPUB 3.0) 형태의 전자책이 늘고 있지만, 정작 전자책을 읽을 수 있는 전자책 뷰어의 시각장애인 접근성이 개선되지 않고 있는 것으로 나타났다. 2024년도 기사는 ‘전자책’ 늘고 ‘점자책’ 사라진다···”공급도 수요도 없어요” 저작권법으로 인해 전자책을 점자책으로 변환하는데는 어려움이 많아 보이는 현실을 보여준다.
출판사의 무관심이 점자 도서 제작을 더디게 하는 요인 중 하나라는 목소리가 나온다. 도서관법 제20조에 따르면 도서관 자료를 국립중앙도서관에 납본하는 경우 디지털 파일 형태로도 납본해야 한다. 디지털 파일이 있으면 시각장애인들이 바로 음성으로 듣거나 점자로 변환시켜 책을 읽을 수 있지만 파일 제출이 제대로 이뤄지진 않는 것으로 나타났다.
확실히 기술적의 발전 속도에 비해 지원 정책과 인식은 여전히 더디게 발전하는 것으로 보인다. 전자책 변환 기술을 상용화한 서비스로는 에이씨엔에스(ACNS)에서 개발한 다큐브레일 V1.0가 있다. 제품 소개글을 보면 다음과 같다.
『장애인 차별금지 및 권리구제 등에 관한 법률』과 더불어 2021년 6월 9일 부터 『점자법』이 개정 시행되어 공공기관등은 시각장애인이 요구하는 경우에는 일반활자문서를 동일한 내용을 점자문서로 제공하여야 합니다. 다큐브레일 V1.0은 텍스트(TXT)와 웹페이지(HTML) 뿐만 아니라 다양한 전자문서(PDF, DOC, DOCX, ODT, HWP, HWPX, EPUB, DAISY)를 자동으로 점역하여, 시각장애인이 이용하는 점자정보 단말기용 포맷(BRL)과 전자프린트용 포맷(BRF)를 제공하고, 비시각장애인이 점역 결과를 확인할 수 있도록 묵자와 점자 형상을 웹 페이지로 제공하는솔루션 입니다. 더불어, 다큐브레일 V1.0 제품의 영구버전 구매 시에는 6종류의 키보드 단축키를 이용하여 음성 서비스를 이용할 수 있는 음성지원 모듈을 제공함으로써 추가적으로 이용자의 편의성을 지원하고 있습니다.
작년 기사인 에이씨엔에스, 국립장애인도서관에 국내 최초 전자책 및 음성도서 자동 점자 생성 솔루션 공급 (2024.07.29)에 따르면 EPUB 형식의 전자책, DAISY 형식의 디지털 음성도서, 한글 문서와 PDF 파일을 자동으로 점자 파일로 번역해 이용자에게 신속한 서비스를 제공하고 있다고 한다.
참고 자료
김제민, 홍은지, 전광일, 전자책 표준을 이용한 시각장애인용 점자전자책 개발, 정보과학회논문지 컴퓨팅의 실 제 및 레터, 제 17권, 제 6호, pp. 353 - 398, 2011. 6.
한글점자번역시스템의 설계 및 구현
전자책 뷰어, 시각장애인에겐 ‘그림의 떡’
‘전자책’ 늘고 ‘점자책’ 사라진다···”공급도 수요도 없어요”
에이씨엔에스, 국립장애인도서관에 국내 최초 전자책 및 음성도서 자동 점자 생성 솔루션 공급 (2024.07.29)
댓글남기기