MIT 연구원들은 언어 모델을 스스로 확장 가능하게 만듭니다.
홈페이지홈페이지 > 소식 > MIT 연구원들은 언어 모델을 스스로 확장 가능하게 만듭니다.

MIT 연구원들은 언어 모델을 스스로 확장 가능하게 만듭니다.

Jan 15, 2024

이전 이미지 다음 이미지

소크라테스는 이렇게 말했습니다. "정말 중요한 것은 사물의 크기가 아니라 품질입니다. 진정한 가치는 그 양이 아니라 실체의 본성에 있기 때문입니다."

LLM(대형 언어 모델)에서는 크기가 항상 중요합니까? LLM이 중심이 되는 기술 환경에서 MIT CSAIL(컴퓨터 과학 및 인공 지능 연구소) 연구원 팀은 특히 업계에서 널리 배포되는 자연어 이해 제품의 경우 더 작은 모델을 간과해서는 안 된다고 생각합니다.

이를 위해 연구원들은 대규모 텍스트 기반 AI 모델과 관련된 오랜 비효율성 및 개인정보 보호 문제에 대한 접근 방식을 고안했습니다. 고성능으로 개인 정보 보호와 견고성을 유지하면서 주석을 생성합니다.

언어, 예술 및 코드를 생성하는 데 유망한 기술을 보여준 LLM은 계산 비용이 많이 들고 데이터 업로드를 위해 애플리케이션 프로그래밍 인터페이스를 사용할 때 데이터 요구 사항으로 인해 개인 정보가 유출될 위험이 있습니다. 더 작은 모델은 역사적으로 더 큰 모델에 비해 멀티 태스킹 및 약한 감독 작업에서 성능이 떨어졌습니다.

그렇다면 이 작은 모델이 그토록 강력하게 행동하는 데 무엇이 도움이 될까요? 이러한 모델이 다양한 언어 작업을 이해하도록 돕는 방법인 "텍스트 수반"이라는 것입니다. 여기서 한 문장(전제)이 참이면 다른 문장(가설)도 참일 가능성이 높습니다. 예를 들어, "모든 고양이에는 꼬리가 있다"라는 전제가 있다면 "얼룩무늬 고양이에게는 꼬리가 있다"라는 가설이 전제에 수반됩니다. 이 개념은 팀의 이전 연구에서 다른 언어 모델보다 덜 편향된 것으로 입증된 "수반 모델"을 훈련하는 데 사용됩니다. 그런 다음 모델이 다양한 작업에 따라 특정 문장이나 구에 특정 정보가 포함되어 있는지 파악하는 데 사용할 수 있는 "프롬프트"를 만들었습니다. 이 방법은 제로라고 알려진 추가 교육 없이 다양한 작업에 적응하는 모델의 능력을 향상시켰습니다. -샷 적응.

"자연어 이해" 영역에는 두 텍스트 사이의 관계를 결정하는 데 필요한 다양한 응용 프로그램이 있습니다. 예를 들어 감정 분류에서는 "영화가 좋은 것 같아요"라는 진술이 "스토리가 좋고 연기가 훌륭하다"는 영화 평론에서 추론되거나 수반되어 긍정적인 감정을 나타낼 수 있습니다. 또 다른 하나는 뉴스 분류로, 뉴스 기사의 주제를 해당 콘텐츠에서 추론할 수 있습니다. 예를 들어, 기사의 주요 내용이 NBA 경기에 대해 보도하는 경우 "뉴스 기사는 스포츠에 관한 것입니다"와 같은 진술이 수반될 수 있습니다. 핵심 통찰력은 기존의 많은 자연어 이해 작업이 수반(즉, 자연어의 논리적 추론) 작업으로 재구성될 수 있다는 것입니다.

"우리의 연구는 인간이 말하고 쓰는 방식인 자연어를 이해하고 처리하는 컴퓨터 프로그램의 능력을 향상시키는 것입니다. 인간이 생성한 레이블이 없는 자체 학습된 3억 5천만 개의 매개변수 수반 모델은 137개로 지도 언어 모델보다 성능이 뛰어납니다. MIT CSAIL 박사후 연구원이자 이 연구에 관한 새 논문의 주요 저자인 Hongyin Luo는 이렇게 말합니다. Luo는 "이것은 AI와 기계 학습의 환경을 재편하여 언어 모델링에 대한 보다 확장 가능하고 신뢰할 수 있으며 비용 효율적인 솔루션을 제공할 수 있는 잠재력을 가지고 있습니다."라고 말합니다. "이 작업은 더 작은 모델이 더 큰 모델과 동일한 수준으로 언어 이해를 수행할 수 있음을 입증함으로써 보다 지속 가능하고 개인정보를 보호하는 AI 기술을 위한 길을 열어줍니다."

팀은 모델이 자체 예측을 사용하여 스스로 학습하고, 사람의 감독 및 추가 주석이 달린 학습 데이터 없이 효과적으로 학습하는 '자가 학습'이라는 기술을 사용하면 모델 성능을 더욱 향상시킬 수 있다는 사실을 발견했습니다. 감정 분석, 질문 답변, 뉴스 분류 등 다양한 다운스트림 작업의 성능이 크게 향상되었습니다. 제로샷 기능, GPT 모델 및 기타 감독 알고리즘에서 Google의 LaMDA와 FLAN보다 성능이 뛰어났습니다.