AI 코딩과 IP 리스크, Tabnine으로 더 똑똑하고 안전하게

min Read

Tabnine
Source : www.tabnine.com | Provenance Attribution

Claude 3.5 Sonnet, GPT-4o와 같은 최첨단 LLM 모델은 AI 코드 어시스턴트를 포함한 생성 AI 애플리케이션의 성능을 크게 개선했습니다. 그러나 이러한 LLM은 인터넷 곳곳에서 수집된 방대한 데이터 세트를 기반으로 학습하며, 여기에는 라이선스 제한이 있는 코드 저장소도 포함될 수 있습니다.

AI 생성 콘텐츠 사용에 대한 저작권법이 아직 확정되지 않았기 때문에 기업의 엔지니어링 팀은 이러한 강력한 모델에서 얻는 성능 향상을 활용하면서 copyleft 라이선스 코드가 코드베이스에 들어갈 가능성을 최소화하는 균형을 맞추고자 합니다.

Tabnine은 첨단 AI 모델의 이점을 극대화하면서도 잠재적인 IP 문제를 효과적으로 방지하기 위해 “Provenance and Attribution”이라는 새로운 기능을 도입했습니다. 이 기능은 AI채팅으로 생성된 코드를 GitHub의 공개 코드와 비교하며, 일치 항목이 발견되면 이를 플래그 처리하고 소스 저장소 및 해당 라이선스 유형을 참조 정보로 제공합니다. 이는 코드 제안의 신뢰도를 높이고, 개발 과정에서 발생할 수 있는 IP 관련 리스크를 사전에 방지하는데 중요한 역할을 합니다.

Tabnine
Source : www.tabnine.com | Provenance Attribution

생성형 AI 코드의 출처 및 라이선스 이해

시중에서 널리 사용되는 대규모 언어 모델(LLM)은 웹사이트, 코드 저장소, 인터넷 포럼 등 다양한 공개 데이터를 학습하여 강력한 성능을 제공합니다. 그러나 이러한 데이터에는 BSD나 MIT 라이선스와 같은 허가된 라이선스 코드뿐 아니라 GPL과 같은 카피레프트 라이선스 코드도 포함될 수 있습니다. 허가된 라이선스 코드는 자유롭게 사용할 수 있는 반면, 카피레프트 라이선스 코드는 사용 조건이 엄격하여 이를 위반할 경우 지식재산권(IP) 침해와 같은 법적 문제가 발생할 수 있습니다.

LLM은 학습한 데이터를 기반으로 패턴을 생성하거나 재생성 하는 특성을 가지고 있어, 모델이 학습 데이터에 포함된 카피레프트 코드를 재생성 할 가능성이 존재합니다. 이를 사용자가 인지하지 못한 채 프로젝트에 적용할 경우, 의도치 않게 비허가된 코드가 포함되어 법적 리스크를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 Tabnine은 그동안 Tabnine Protected 2라는 라이선스 준수 모델을 제공하였습니다. 이 모델은 허가된 오픈소스 라이선스 코드만을 학습하도록 설계되어, 기업이 IP 침해 위험 없이 제너레이티브 AI의 혜택을 안전하게 누릴 수 있도록 하였습니다.

이제 더 나아가 Tabnine은 새로운 Provenance and Attribution 기능을 통해 학습 데이터의 출처를 명확히 추적하고, 비 허가된 코드가 생성될 가능성을 차단하는 환경을 제공합니다. 이는 AI 모델이 생성한 코드의 신뢰성을 높이며, 법적 리스크를 최소화하면서도 높은 수준의 성능을 유지할 수 있도록 합니다.

허가된 코드만 학습한 모델은 법적 안정성을 보장하지만 제한된 데이터셋으로 인해 성능이 다소 낮아질 수 있는 반면, 더 넓은 데이터 풀에서 학습된 모델은 우수한 성능을 제공하지만 비허가된 코드가 포함될 위험이 존재합니다. Tabnine의 새로운 기능은 이러한 법적 안정성과 성능 간의 균형을 맞출 수 있는 옵션을 제공함으로써, AI가 생성한 코드에 대한 성능과 안정성을 모두 확보하며, 신뢰를 바탕으로 안전하고 효율적인 개발 환경을 구축할 수 있도록 합니다.

두 가지 단계로 제공되는 IP(지식 재산권) 보호 기능

1. 학습 단계 보호

Tabnine 의 Protected 2 모델은 사용 제한이 없는 코드만 학습하여 비허가 코드를 완전히 배제함으로써, 엄격한 컴플라이언스 정책을 준수해야 하는 기업에 최적화된 제로 리스크 솔루션을 제공합니다.

2. 추론 단계 보호

LLM에서 생성된 코드를 GitHub에 공개된 코드와 대조하며 일치하는 코드를 찾아내고, 해당 소스 저장소와 라이선스 유형을 식별합니다. 이를 통해 코드 제안의 적합성과 정책 준수를 검토하기 용이해집니다.

Provenance and Attribution 기능이 작동하는 방식

사용자가 AI 에이전트를 호출하거나 AI 채팅을 통해 프롬프트를 제출하면, Tabnine 은 생성된 코드를 GitHub의 모든 공개 코드와 비교하여 잠재적인 유사성을 분석합니다. 이후, 채팅 인터페이스를 통해 코드의 일치 여부를 즉각적으로 알리며, 일치 사례를 플래그 처리해 사용자가 명확히 확인할 수 있도록 지원합니다

Provenance and Attribution 기능은 단순히 일치하는 코드를 플래그 처리하는 데 그치지 않고, 동일한 기능을 수행하지만 변수 이름이나 일부 요소가 변경된 경우와 같은 잠재적인 변형 사례까지도 식별해 플래그로 표시합니다. 이러한 정밀한 분석은 코드 재사용이나 중복 위험을 최소화하며, 조직 내 코드가 라이선스 준수를 철저히 지킬 수 있도록 보장합니다.

또한 플래그 처리된 사례들은 기록으로 남아 관리자가 이를 체계적으로 모니터링 할 수 있도록 지원합니다. 이를 통해 조직은 코드의 라이선스 준수 상태를 실시간으로 파악하고 관리할 수 있으며, 개발 과정 전반에서 법적 리스크를 사전에 차단할 수 있습니다.

Tabnine은 앞으로 특정 저장소를 식별하거나 특정 조건에 부합하는 코드를 자동으로 제거하는 검열 기능 등의 더욱 강력한 코드 검증 기능을 추가할 계획입니다. 이는 경쟁사의 코드가 사용자의 코드베이스에 포함되지 않도록 사전 방지하며, 개발 과정 전반에서 코드 준수와 법적 안정성을 더욱 강화할 수 있도록 할 것입니다.

제너레이티브 AI를 활용하는 기업과 개발자들에게 데이터 출처와 라이선스 준수는 선택이 아닌 필수입니다. Tabnine은 이러한 요구를 충족시키며, AI 활용의 잠재력을 극대화할 수 있는 최적의 솔루션을 제공합니다. 법적 리스크 걱정 없는 AI의 잠재력을 지금 바로 경험해보세요.

한 단계 더 진화한 AI 코딩 파트너, Tabnine

AI 기반 코드 생성과 검증을 통해 신뢰할 수 있는 개발 환경을 제공합니다.

Pankti Panchal

Subscribe for the Latest News!

 
123
Edit Template