김승원 의원 “국어 빅데이터 미국 1/100, 일본 절반 수준.. 구축속도 높여야”

2021.10.20 21:11:32

모두의 말뭉치 사업, 접근성 연동성 향상시켜야
일본의 절반 수준, 어절 구축에도 박차를 가해야


(중앙뉴스타임스 = 방재영 기자) 국회 문화체육관광위원회 김승원 의원(더불어민주당, 수원시갑)이 19일 진행된 국정감사에서 ‘모두의 말뭉치’의 접근성과 연동성을 향상시키고, 어절 확보를 보다 신속히 진행해야 한다고 밝혔다.


국립국어원 소관 ‘모두의 말뭉치’ 사업은 4차 산업혁명과 AI사업 기반 마련을 위해 국어(언어) 빅데이터를 구축하는 사업이다. 지난 2018년부터 올해까지 해당 사업에 총 303억원의 예산이 투입되어 10월 기준으로  20.6억 어절을 구축했다. 

우리나라는 지난 1998년부터 10여년 동안 21세기 세종계획 전문용어 정비사업을 진행해 2억 어절의 말뭉치를 구축한 바 있다. 당시 기준으로는 전 세계 상위권에 해당했으나, 이후 10년간 사업이 중단되면서 공백이 발생했다.

김 의원에 따르면, 2018년 기준 미국은 2000억 어절, 중국은 800억 어절, 일본은 40억 어절을 확보한 것으로 나타났다. 반면, 현재 모두의 말뭉치에 구축되어 있는 어절은 20.6억 어절로 미국의 100분의 1 수준, 일본의 절반 가량인 상황이다. 이에 김 의원은 “말뭉치 구축 사업이 인공지능을 포함한 4차 산업혁명 전반의 필수적 요소인 만큼, 어절 확보에 속도를 높여 국제적 경쟁력을 확보해야 한다”라고 지적했다.

한편, 올해초 일부 말뭉치 유형에서 비속어 등의 부적절한 표현이 발견돼 서비스를 일부 중단하는 등 논란이 되기도 했다. 김 의원은 “인센티브를 제공할 수 있는  AI가이드라인을 마련하거나 정부-민간-학계 차원에서의 거버넌스 체계를 구축하는 등 정부가 앞장서 AI윤리성 확보를 위해 노력해야 한다”라고 말했다.

마지막으로 김승원 의원은 “미국의 경우 질병통제예방센터(CDC)에만 접속해도 수 천만건의 데이터가 편리하게 사용가능하도록 구축되어 있으나, 국내 공공데이터포털의 경우 상대적으로 뒤쳐지는 상황”이라며, “공공데이터 구축이 4차 산업혁명의 미래를 결정하는 만큼, 말뭉치 구축 속도를 높이고 공공데이터로써 접근성과 연동성을 향상시켜야 한다”라고 마무리했다.



방재영 기자 jnewstimes1026@naver.com
COPYRIGHT © 2016 JNEWSTIMES.COM ALL RIGHTS RESERVED.


PC버전으로 보기

제호: 중앙뉴스타임스 | 등록번호: 경기 아 51417 용인본사: 경기도 용인시 수지구 상현로 5, 4층(402-32호)| 등록일:2016년 10월 26일 수원본사: 경기도 수원시 팔달구 경수대로 438, 713 오산본부: 경기도 오산시 가장로534번길 50-73 인천본부: 인천광역시 남동구 구월로 123, 2층 발행·편집인 : 방재영 | 청소년보호책임자: 이광운 대표전화 : 010-2079-8123 | 팩스 : 0504-066-8123 COPYRIGHT © 2016 JNEWSTIMES.COM ALL RIGHTS RESERVED.