Scientia Conditorium

[정리] 구글 연구원이 작성한 오픈소스 LLM에 관한 내부 문서 유출본 본문

인공지능

[정리] 구글 연구원이 작성한 오픈소스 LLM에 관한 내부 문서 유출본

크썸 2023. 5. 7. 19:22

Leaked Internal Google Document Claims Open Source AI Will Outcompete Google and OpenAI
원문 링크 : https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
한글 번역 : https://arca.live/b/live/75673342

 

Google "We Have No Moat, And Neither Does OpenAI"

Leaked Internal Google Document Claims Open Source AI Will Outcompete Google and OpenAI

www.semianalysis.com

구글 리서처가 작성한 오픈소스 LLM에 관한 내부 문서 유출본
인공지능 기술의 발전 방향에 대해 중요한 맥락을 딱딱 짚어주고 있음.

Google "We have no moat, and neither does OpenAI"
Moat : 방어를 위해 성 주위에 파놓은 구덩이, 해자

올해 3월 초, Meta의 LLaMA가 대중에게 유출되면서 오픈 소스 커뮤니티는 처음으로제대로 된 성능의 파운데이션 모델을 손에 넣음.
(Foundation Model : ChatGPT 처럼 대규모 데이터로 사전학습되고 전이학습이 일어나는 딥러닝 모델)
유출된 이후 며칠 사이에 엄청난 혁신이 쏟아져 나왔는데, 가장 중요한 것은 누구나 손댈 수 있을 정도로 비용 규모 문제를 해결했다는 점.
교육과 실험에 대한 진입 장벽이 대형 연구 기관의 총 역량 수준에서 한 사람의 저녁 시간, 고급 노트북 수준으로 낮아짐.
(코딩 변태들이 2주도 안되서 라즈베리파이와  돌아갈 수 있게 하고,

 

4비트 양자화를 사용하여 맥북 CPU에서 GPU없이 충분히 빠르게 실행되게함.
한달정도 지나자 ChatGPT와 비슷한 수준으로 개발...)

구글이 주요 문제라고 생각했던 문제들이 오픈소스 진영의 몇 사람들에 의해 해결됨.

  1. 휴대폰에서 언어모델 구동하기 : 구글 폰 픽셀6에서 초당5 토큰을 뽑아내는데 성공
  2. 확장가능한 개인화된 모델 : 노트북 수준의 하드웨어에서 하루만에 파인튜닝을 해낼 수 있음
  3. 출시의 책심소지 : 이건 해결(solve)되었다기보다는 생까기로(obivate)한거긴 한데,
    그림 모델의 경우 아무 제약없는 모델이 출시되어 사람들에게 그냥 막 배포되고 있는게 현실.
    언어모델도 크게 다를 것 같지 않음
  4. 멀티모달(Multimodality) : 현재 최고수준급의 ScienceQA 멀티 모델은 한 시간만에 학습이 가능한 수준

구글 모델은 품질 측면에서 약간 더 우위에 있긴 하지만 그 격차는 빠른 속도로 좁혀지고 있음.
오픈 소스 모델들은 더 빠르고 특화가 용이하며, 개인용으로 적합하고 규모 대비 더 뛰어난 성능을 제공.

  • Stable Diffusion Moment
    생성형 모델로 여러가지 이미지들을 만드는 사람들이 굉장히 많아짐.
    자신의 PC에서 마음대로 생성형 모델을 사용하고 원하는 결과를 만들어내고 있음.
    현재 우리가 ChatGPT를 사용하려면 OpenAI의 서버를 이용해야함.
    ChatGPT와 같은 대형 언어 모델에도 Stable Diffusion moment가 올거라는 얘기는 서버 접속 없이도 ChatGPT에 상응하는 서비스를 이용할 수 있게될거라는 의미.

    Stable Diffusion은 Dall-E와 달리 개방형 모델을 채택함으로써 다른 상용 제품과의 결합(포토샵용 플러그인),
    마켓플레이스(civital), 사용자 인터페이스(automatic1111), 컨트롤넷까지 이룸.
    문화적 영향력 측면에서 빠르게 우위를 점했고 점점 더 무의미해져 가는 OpenAI의 Dall-E의 차이는 분명함.
    언어모델에서도 같은 일이 일어날지는 아직 미지수이지만, 큰 전제조건에서는 차이가 없음.

  • LORA : Low-Rank Adaptation of LLM
    모델을 처음부터 다시 학습시키는 것은 험난한 과정임.
    LORA 같은 기술은 대형 언어 모델을 아주 적은 비용으로 각자에게 필요한 용도로 미세조정할 수 있다는 것을 보여줌.($100 이하 하루 이내)(논문 링크 : https://arxiv.org/abs/2106.09685 )
    새롭고 더 나은 데이터 세트가 사람들의 손에 주어지면 사람들은 전체 모델을 학습시키지 않고 각자의 모델을 저렴하게 최신 상태로 유지할 수 있다는 것.
    아주 큰 모델들을 유지하는 것은 오히려 약점이 될 수 있다고 봄.
    장기적으로는 작은 모델을 반복해서 개선시켜나가는 것이 더 유리하다고 판단.

  • 데이터의 크기보다 품질이 중요
    고품질 데이터셋은 공개되어있고 무료.
    OpenAI가 기술을 숨겨두는 것을 비판하기도 하는데 결국 (구글 입장에서도) OpenAI는 중요하지 않음.
    오픈소스가 다 바꿔놓을 것.

역설적이게도 현재 이 모든 것의 확실한 승자는 Meta.
유출된 모델이 자신들의 것이었기 때문에 그들은 사실상 지구 전체에 해당하는 무료 노동력을 확보한 셈.
대부분의 오픈소스 혁신이 Meta의 아키텍처를 기반으로 이루어지고 있기 때문에, Meta가 이를 자사 제품에 직접 통합하는 것을 막을 수 있는 방법은 없음.

 

구글 연구원들은 정기적으로 다른 회사로 이직하고 있기 때문에 우리가 알고 있는 모든 것을 다른 회사들도 알고 있다고 가정할 수 있음.
오픈소스 모델이 매우 빠르게 발전하고 있어 최종적으로는 오픈소스 LLM이 구글과 OpenAI를 압도할 것이며, 구글이 혁신을 주도하고 통제하지 못할 것.
이는 구글과 OpenAI의 비즈니스 전략에 큰 영향을 미칠 것이며 따라서 경쟁력을 유지하기 위해 오픈소스와 협력하고,
비공개 기술에만 의존하지 말고 빠르게 발전하는 오픈소스 커뮤니티의 리더가 되어야한다고 주장.


위 구글 유출 문서에 대한 신빙성을 더해주는 결과가 바로 등장함

https://huggingface.co/blog/starcoder

 

StarCoder: A State-of-the-Art LLM for Code

StarCoder: A State-of-the-Art LLM for Code About BigCode BigCode is an open scientific collaboration led jointly by Hugging Face and ServiceNow that works on the responsible development of large language models for code. Introducing StarCoder StarCoder and

huggingface.co

오픈소스 AI 모델인 StartCoder 가 구글의 PaLM-540B보다 코딩 능력을 측정하는 HumanEval 일정 벤치마크에서 더 좋은 성능을 냈다는 글.

물론 PaLM 이나 해당 논문에서 쓰인 비교군인 LLaMA나 LaMDA 등은 General Purpose Model이고,

StartCoder는 codex나 codegen과 처럼 코딩만 잘하는 모델이라 모든 측면에 성능이 뛰어나다고는 볼 수 없음.