동의 없는 AI 데이터 학습을 멈추기 위한 노력

생성형 AI 기술, 챗 GPT와 같은 인공지능은 인공신경망을 이용하여 사용자의 특정 요구에 따라 새로운 데이터를 생성해 내는 기술을 말한다. 이러한 기술은 대량의 온라인 정보를 학습하여 새로운 콘텐츠를 만들어낸다.

이때 생성형 AI는 책, 논문, 소셜미디어 대화, 음성, 이미지 등 다양한 콘텐츠를 학습 데이터로 사용할 수 있지만 저작권 문제를 야기하고 있다. 생성형 AI가 학습 과정에서 저작권이 있는 자료를 무단으로 수집하고 사용하며 출처를 밝히지 않는 일이 빈번하게 발생하고 있어서 불법성과 논란이 일고 있다.

또한, 민감한 개인정보가 사용자의 동의 없이 AI 학습에 이용될 가능성도 우려되고 있다. 예를 들어, 2021년에는 법무부가 공항 출입국 시 수집한 개인정보를 민간 업체에 무단으로 이전하여 문제가 발생한 적이 있어 법무부는 개인정보위원회로부터 과태료를 부과 받은 바 있다. 개인정보 유출과 관련하여 인공지능 챗봇 '이루다'를 개발한 '스캐터랩'도 동일한 문제로 논란에 휩싸인 적이 있다.

-일론머스크 트위터 캡처-
-일론머스크 트위터 캡처-

트위터 최고기술책임자(CTO) 일론 머스크는 지난 7월 2일 트위터 이용자의 게시물 조회 횟수를 제한하는 방안을 발표했다. 이는 수백만 조직이 트위터 데이터를 공격적으로 활용하는 것을 막기 위한 조치로, 무차별하고 공격적인 AI 학습 행위에 대응하는 것이다. 뿐만 아니라 레딧 등 다른 커뮤니티 사이트들도 AI 학습에 사용되는 데이터 이용료를 부과하는 조치를 취하고 있다.

유럽연합(EU)도 AI 학습과정에서 발생하는 저작권 침해행위에 대해 규제 법안을 추진하고 있으며, 이를 통해 생성형 AI 등의 서비스는 기술 개발에 사용된 저작물을 명확히 공개하고 출처를 표기해야 한다는 방안이 제시되고 있다.

현재까지 저작권법은 AI의 학습과정에서 발생하는 저작권 침해에 대해 명확한 규정이 없어서 이를 고려해 저작권법 개정이 추진되고 있다. 문화체육관광부는 AI 학습과 빅데이터 분석에 사용되는 데이터에 대해 면책조항을 포함한 저작권법 개정안을 발의하고 있으며, 이를 통해 인공지능의 개발과 활용을 촉진하고자 한다.

또한, AI가 데이터를 학습하는 과정에서 일어나는 저작물의 복제와 전송에 '공정이용'을 적용하는 주장도 제기되고 있으며, 현재로서는 이러한 문제에 대한 해법을 찾기 위한 논의가 진행되고 있다.

ⓒ 사례뉴스는 비즈니스의 다양한 사례를 공유합니다. 출처를 표기한 다양한 인용과 재배포를 환영합니다.