AI의 지식 독점: 기업 권력과 민주적 접근의 대립
AI 기업의 대규모 지식 수집이 저작권, 통제, 민주적 가치와 충돌한다. 아론 슈워츠의 유산과 AI 시대의 지식 독점 문제를 분석한다.
AI의 지식 독점: 개방 접근을 위한 새로운 전쟁의 전선
활동가 아론 슈워츠(Aaron Swartz)의 사망 10여 년이 지난 지금, 미국은 지식의 대규모 독점에 대한 모순된 태도를 보이고 있다. 이는 기업 권력과 민주적 가치를 대립시키는 문제다. 2013년 연방 검찰의 기소로 자살한 슈워츠는 공공 자금으로 지원된 연구는 자유롭게 접근 가능해야 한다고 믿었다. 그러나 오늘날 AI 기업들은 훨씬 더 광범위한 정보 추출을 자행하며, 저작권, 통제, 지식의 미래에 대한 긴급한 질문을 제기하고 있다.
슈워츠의 전례와 AI의 이중 잣대
슈워츠는 학술 연구 디지털 라이브러리인 JSTOR에서 수천 편의 논문을 다운로드한 혐의로 기소되었다. 당시 이 논문들의 대부분은 납세자 자금으로 지원되었고, 공공 기관에서 수행되었으며, 공공 이해 증진을 목적으로 했으나 유료 벽 뒤에 갇혀 있었다. 슈워츠의 행동은 그가 의도적으로 제한적이라고 본 시스템에 대한 도전이었다. 미국 정부는 중범죄 기소와 수십 년의 징역 위협으로 대응했다.
2025년 현재, 상황은 극적으로 변했다. Anthropic과 같은 AI 기업들은 저작권이 있는 자료—책, 언론 기사, 학술 논문, 예술 작품, 개인 저작물 등—를 동의, 보상, 투명성 없이 대규모로 수집(scraping)하고 있다. 이러한 데이터셋은 대형 언어 모델(LLM)을 훈련시키는 데 사용되며, 이후 수익화되어 대중에게 판매된다. 그러나 슈워츠와 달리 AI 기업들은 형사 기소를 받지 않는다. 대신, Anthropic은 출판사들과 15억 달러의 합의(약 50만 권의 책당 3,000달러)를 체결하고, 저작권 침해를 "혁신의 불가피한 비용"으로 포장한다.
집행의 불균형은 명백하다. 슈워츠는 지식을 해방시키려 한 혐의로 범죄자로 취급받았으나, AI 기업들은 동일한 원칙—정보의 대규모 추출—으로 이익을 창출하면서도 필수 경제 엔진으로 여겨진다.
AI 훈련 데이터의 기술적·법적 의미
스크래핑된 데이터에 의존하는 AI는 보안 및 법조 전문가들에게 여러 가지 중요한 문제를 제기한다:
-
독점의 규모: Anthropic, OpenAI, Google 등이 개발한 LLM은 수십억 건의 문서(저작권이 있는 작품 포함)로 훈련된다. 전통적인 저작권 분쟁이 개별적인 침해 사례를 다루는 반면, AI 훈련은 체계적이고 대규모로 보호된 자료를 재생산한다.
-
투명성 부족: 대부분의 AI 기업은 훈련 데이터셋의 전체 범위를 공개하지 않아, 저작권법 또는 윤리 규범 준수 여부를 평가하기 어렵다. 이러한 불투명성은 모델 자체에도 적용되며, 편향, 정확성, 출처를 감사할 수 없는 "블랙박스"로 작동한다.
-
합의금의 사업 모델화: Anthropic의 15억 달러 합의금은 약 50만 권의 책당 3,000달러로, 침해 비용이 AI 기업의 사업 모델에 반영되고 있음을 시사한다. 법조 전문가들은 이 회사가 1조 달러 이상의 잠재적 책임에서 벗어났다고 추정하며, 합의금이 대규모 독점의 사실상 라이선스로 작용할 수 있음을 보여준다.
-
사법 및 정책의 모호성: 법원과 정책 입안자들은 AI 훈련 데이터에 대한 명확한 기준을 아직 마련하지 못했다. 일부 판사는 저작권 자료를 이용한 훈련을 공정 이용(fair use)으로 판결했으나, 다른 판사들은 회의적인 입장을 보였다. 한편, 정책 입안자들은 AI의 경제적 잠재력과 창작자의 권리 보호 사이에서 균형을 맞추려 노력하며, 혁신을 저해하지 않으려는 신중함으로 기업 측에 유리한 결정을 내리는 경우가 많다.
영향: 누가 지식의 인프라를 통제하는가?
이 문제는 저작권법을 넘어선다. AI 시스템이 검색, 종합, 설명을 통해 정보 접근을 중개함에 따라, 어떤 지식이 우선시되고, 누가 권위자로 인정되며, 어떤 질문이 가능해지는지까지 결정하게 된다. 이러한 통제의 집중은 다음과 같은 심대한 영향을 미친다:
-
공공 지식의 기업 장악: NIH 자금으로 지원된 연구나 정부 보고서 등 공공 자금으로 수행된 연구로 훈련된 AI 모델은 종종 사유화되어, 대중이 세금으로 지원한 통찰에 다시 비용을 지불해야 한다. 이는 슈워츠가 맞섰던 유료 벽 문제와 유사하지만, 훨씬 더 큰 규모로 진행되고 있다.
-
민주적 규범의 침식: 정보 접근이 민주적 가치보다 기업의 우선순위에 의해 좌우되면, 공론은 왜곡된다. 예를 들어, AI 모델은 모회사의 재정적 이익에 부합하는 답변을 우선시할 수 있으며, 이는 정확성이나 형평성과 충돌할 수 있다.
-
책임성과 신뢰: 전통적인 매체나 학술 출판과 달리, AI 시스템은 공공 감시 메커니즘이 없다. 사용자는 AI 생성 응답의 출처를 확인하거나, 편향을 감사하거나, 결과를 반박할 수 없다. 이는 의료부터 법 집행에 이르기까지 AI에 의존하는 기관에 대한 신뢰를 약화시킨다.
권고안: 혁신과 형평성의 균형
보안 전문가, 정책 입안자, 기술자들은 AI의 지식 독점이 초래하는 기술적·윤리적 문제를 해결하기 위해 다음과 같은 조치를 취해야 한다:
-
투명성과 감사: AI 기업은 훈련 데이터셋을 공개하고, 독립적인 모델 감사를 허용해야 한다. 이를 통해 연구자들은 저작권법 준수 여부, 편향 식별, 훈련 데이터 출처 평가가 가능하다.
-
명확한 법적 프레임워크: 정책 입안자들은 AI 훈련 데이터에 대한 명확한 기준(공정 이용 지침, 창작자 보상, 미준수 시 처벌 등)을 마련해야 한다. 현재의 소송과 합의금 패치는 지속 불가능하며, 자본력이 있는 기업에 유리하다.
-
공공 대안: 정부와 학계는 윤리적으로 수집된 데이터로 훈련된 오픈소스 AI 모델에 투자해야 한다. 이러한 대안은 기업이 통제하는 시스템에 대한 균형추 역할을 하며, 공공 자금으로 수행된 연구가 대중에게 접근 가능하도록 보장한다.
-
윤리적 데이터 수집: AI 기업은 훈련 데이터에 대한 옵트인(opt-in) 모델을 채택하고, 창작자에게 공정한 보상을 제공하며, 그들의 작품이 어떻게 사용되는지 투명하게 공개해야 한다. 이는 민주적 가치에 부합하며, 법적 분쟁 위험을 줄인다.
-
공공 옹호: 보안 전문가와 기술자들은 AI의 윤리적 의미에 대한 공론에 참여해야 한다. 슈워츠의 투쟁은 접근성뿐만 아니라 "누가 지식의 통치 방식을 결정하는가"에 관한 것이었다. 이 질문은 오늘날에도 여전히 시급하다.
민주적 약속의 시험대
지식—누가 접근하고, 누가 이익을 얻으며, 누가 공유를 이유로 처벌받는가—에 대한 처우는 민주적 가치의 시험대가 되었다. 슈워츠의 사건은 유료 벽에 도전하는 개인을 범죄화하면서도 기업이 지식을 대규모로 독점하는 시스템의 모순을 드러냈다. 오늘날 AI의 데이터 대규모 추출은 동일한 근본적 질문을 제기한다: 지식은 개방성과 공공 이익에 의해 통치될 것인가, 아니면 기업 권력에 의해 통치될 것인가?
이 질문에 대한 답은 AI의 미래뿐만 아니라 민주주의의 미래까지 결정할 것이다.