[Personal studies]

[Personal studies]LLM(Large Language Model)이란? feat. 간단정리

dyk98 2025. 1. 24. 15:48

LLM (Large Language Model)이란?

LLM (Large Language Model)은 인공지능(AI) 분야에서 사용되는 대규모 언어 모델로, 방대한 양의 텍스트 데이터를 학습하여 언어를 이해하고 생성하는 데 특화된 모델이다. LLM은 자연어 처리(NLP) 기술의 중심에 있으며, 인간의 언어를 기반으로 여러 작업을 수행한다.

LLM's flows

LLM의 주요 특징

1. 대규모 데이터 학습

  • 인터넷, 책, 논문 등 다양한 출처에서 수집된 수십억~수조 개의 단어 데이터를 학습함.
  • 학습 데이터가 많을수록 모델이 더 다양한 언어 패턴과 컨텍스트를 이해할 수 있음.

2. 트랜스포머(Transformer) 구조

  • LLM은 주로 트랜스포머 기반 아키텍처(GPT, BERT 등)를 사용함.
  • 트랜스포머는 문맥을 이해하는 데 뛰어난 성능을 제공하며, 병렬 처리가 가능해 학습 속도도 빠름.

3. 다양한 언어 처리

  • 텍스트 생성, 번역, 요약, 질의응답, 문법 교정 등 다양한 작업을 수행가능.
    • 예: GPT 계열 모델 → 텍스트 생성
      BERT 계열 모델 → 텍스트 이해

4. 파라미터 수

  • LLM은 수백억~수조 개의 파라미터를 가지며, 이는 모델이 얼마나 복잡한 관계를 학습할 수 있는지 나타냄.
    • 예: GPT-3는 약 1750억 개의 파라미터를 가지고 있음.

LLM의 주요 용도

  1. 자연어 생성:
    • 블로그 글쓰기, 소설 작성, 기술 문서 작성 등 자연스럽고 유창한 텍스트 생성.
  2. 자동 번역:
    • 여러 언어 간의 고품질 번역 제공.
  3. 질의응답(Q&A):
    • 사용자의 질문에 대해 맥락에 맞는 답변 생성.
  4. 대화형 AI:
    • 챗봇이나 가상 비서를 구현하는 데 활용 (예: ChatGPT, Alexa).
  5. 텍스트 분석:
    • 감정 분석, 문장 요약, 주제 분류 등.

LLM의 한계

  1. 학습 데이터에 의존:
    • 학습 데이터에 없는 지식이나 정보는 생성할 수 없으며, 종종 부정확한 답변을 생성 가능.
  2. 비용 문제:
    • 모델을 학습시키는 데 많은 시간, 데이터, 컴퓨팅 자원이 필요함.
  3. 편향(Bias):
    • 학습 데이터의 편향성이 모델의 결과에도 반영됨.
  4. 추론 능력 한계:
    • 창의적이거나 복잡한 논리적 추론에서 한계를 보일 수 있음.

RNN (Recurrent Neural Network)

1. RNN의 개념

  • RNN은 Recurrent Neural Network의 약자로, 시퀀스 데이터(시간 또는 순서 의존성이 있는 데이터)를 처리하기 위해 설계된 신경망임.
  • 주요 특징은 순환 구조를 가지고 있어 이전 시간 단계의 정보를 저장하고, 이를 현재 단계의 입력으로 사용함.
  • 텍스트, 음성, 시계열 데이터 같은 순차 데이터에서 매우 유용함.

2. RNN의 구조

입력 xt와 이전 단계의 은닉 상태 ht-1가 결합하여 현재 은닉 상태 ht를 계산.

공식:
ht = Activation(Wxxt + Whht-1 + b)

  • Wx: 입력에 대한 가중치.
  • Wh: 은닉 상태에 대한 가중치.
  • b: 편향.

3. RNN의 한계

  • Vanishing Gradient Problem: 시퀀스가 길어질수록 초기 정보가 사라져 모델이 학습하기 어려움.
  • Long-Term Dependency 처리의 어려움: 장기적인 문맥 정보를 기억하는 데 한계가 있음.

MLP (Multi-Layer Perceptron)

1. MLP의 개념

  • MLP는 다층 퍼셉트론의 약자로, 기본적인 Feedforward Neural Network.
  • 비시퀀스 데이터에서 널리 사용되며, 입력 데이터와 출력 데이터 간의 고차원 비선형 관계를 학습할 수 있음.

 

MLP structure

2. MLP의 구조

기본적으로 Fully Connected LayerActivation Function으로 구성됩니다. 입력층 → 은닉층(들) → 출력층 구조로 되어 있으며, 각 노드는 이전 층의 모든 노드와 연결되는 형태.

공식:
h = σ(Wx + b)

    • W: 가중치 행렬.
    • b: 편향.
    • σ: 비선형 활성화 함수(e.g., ReLU, Sigmoid).

3. MLP의 한계

  • 시퀀스 데이터 처리 불가: 순서나 시간 의존성을 반영하지 못함.
  • 고정된 입력 크기: 유연한 입력 길이를 다룰 수 없음.

그럼 여기서 기존의 LLM은 RNN 을 왜 사용하고 Transformer로 교체한 이유를 정리해보자.

LLM에서 RNN을 사용하는 이유

1. LLM과 시퀀스 데이터

  • LLM(Large Language Model)은 텍스트와 같은 순차적 데이터를 처리합니다. 이는 단어의 순서, 문맥, 의미 등이 중요하기 때문에, 시퀀스 의존성을 학습하는 것이 필수적입니다.
  • RNN은 텍스트 데이터의 순차성문맥을 학습하는 데 특화된 구조.

2. RNN의 역할

  • RNN은 단어 간의 관계와 문맥적 의미를 이해하기 위해 LLM의 초기 설계에 자주 사용되었습니다.
    • 예: 한 문장에서 각 단어의 순서에 따른 의미를 학습하거나, 문장의 다음 단어를 예측.
  • 단, RNN만으로는 한계가 있었습니다. 장기 의존성을 처리하지 못하고, 학습 속도가 느렸으며, 병렬 처리가 어렵다는 문제가 있음.

RNN의 한계를 해결하기 위한 대안: Transformer

최근의 LLM(GPT, BERT 등)은 Transformer 구조를 사용하며, RNN을 대체함. Transformer는 다음과 같은 이유로 RNN보다 효율적:

  1. 병렬 처리 가능:
    • RNN은 순차적으로 학습해야 하지만, Transformer는 모든 입력을 병렬로 처리할 수 있음.
  2. Long-Term Dependency 처리:
    • Self-Attention 메커니즘을 통해 긴 문맥도 쉽게 학습 가능.
  3. Vanishing Gradient 문제 없음:
    • Transformer는 깊은 네트워크에서 더 안정적으로 학습.

결론: 왜 LLM에서 RNN을 대체했는가?

RNN은 순차적 데이터를 처리하는 데 강점이 있지만, LLM에서 요구하는 대규모 데이터 학습긴 문맥 이해에는 적합하지 않기에, Transformer 기반 모델(예: GPT, BERT)의 기반으로 대체가 되었다고 한다.

 

Reference:

 

 

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.stackspot.com%2Fen%2Fblog%2Flarge-language-models&psig=AOvVaw2tYYYXAWP8Cfb-3gn7Ia_y&ust=1737786519918000&source=images&cd=vfe&opi=89978449&ved=0CBgQ3YkBahcKEwi44ou03Y2LAxUAAAAAHQAAAAAQCg

 

리디렉션 알림

 

www.google.com

 

https://jitolit.tistory.com/107

 

MLP 신경망 (Multi-Layer Perceptron)

MLP 란 여러 개의 퍼셉트론 뉴런을 여러 층으로 쌓은 다층신경망 구조입력층과 출력층 사이에 하나 이상의 은닉층을 가지고 있는 신경망이다.인접한 두 층의 뉴런간에는 완전 연결 => fully connected

jitolit.tistory.com