[Personal studies]

[Personal studies]LLM(Large Language Model)이란? feat. 간단정리

dyk98 2025. 1. 24. 15:48

LLM (Large Language Model)이란?

LLM (Large Language Model)은 인공지능(AI) 분야에서 사용되는 대규모 언어 모델로, 방대한 양의 텍스트 데이터를 학습하여 언어를 이해하고 생성하는 데 특화된 모델이다. LLM은 자연어 처리(NLP) 기술의 중심에 있으며, 인간의 언어를 기반으로 여러 작업을 수행한다.

LLM의 주요 특징

1. 대규모 데이터 학습

인터넷, 책, 논문 등 다양한 출처에서 수집된 수십억~수조 개의 단어 데이터를 학습함.
학습 데이터가 많을수록 모델이 더 다양한 언어 패턴과 컨텍스트를 이해할 수 있음.

2. 트랜스포머(Transformer) 구조

LLM은 주로 트랜스포머 기반 아키텍처(GPT, BERT 등)를 사용함.
트랜스포머는 문맥을 이해하는 데 뛰어난 성능을 제공하며, 병렬 처리가 가능해 학습 속도도 빠름.

3. 다양한 언어 처리

텍스트 생성, 번역, 요약, 질의응답, 문법 교정 등 다양한 작업을 수행가능.
- 예: GPT 계열 모델 → 텍스트 생성
  BERT 계열 모델 → 텍스트 이해

4. 파라미터 수

LLM은 수백억~수조 개의 파라미터를 가지며, 이는 모델이 얼마나 복잡한 관계를 학습할 수 있는지 나타냄.
- 예: GPT-3는 약 1750억 개의 파라미터를 가지고 있음.

LLM의 주요 용도

자연어 생성:
- 블로그 글쓰기, 소설 작성, 기술 문서 작성 등 자연스럽고 유창한 텍스트 생성.
자동 번역:
- 여러 언어 간의 고품질 번역 제공.
질의응답(Q&A):
- 사용자의 질문에 대해 맥락에 맞는 답변 생성.
대화형 AI:
- 챗봇이나 가상 비서를 구현하는 데 활용 (예: ChatGPT, Alexa).
텍스트 분석:
- 감정 분석, 문장 요약, 주제 분류 등.

LLM의 한계

학습 데이터에 의존:
- 학습 데이터에 없는 지식이나 정보는 생성할 수 없으며, 종종 부정확한 답변을 생성 가능.
비용 문제:
- 모델을 학습시키는 데 많은 시간, 데이터, 컴퓨팅 자원이 필요함.
편향(Bias):
- 학습 데이터의 편향성이 모델의 결과에도 반영됨.
추론 능력 한계:
- 창의적이거나 복잡한 논리적 추론에서 한계를 보일 수 있음.

RNN (Recurrent Neural Network)

1. RNN의 개념

RNN은 Recurrent Neural Network의 약자로, 시퀀스 데이터(시간 또는 순서 의존성이 있는 데이터)를 처리하기 위해 설계된 신경망임.
주요 특징은 순환 구조를 가지고 있어 이전 시간 단계의 정보를 저장하고, 이를 현재 단계의 입력으로 사용함.
텍스트, 음성, 시계열 데이터 같은 순차 데이터에서 매우 유용함.

2. RNN의 구조

입력 x_t와 이전 단계의 은닉 상태 h_t-1가 결합하여 현재 은닉 상태 h_t를 계산.

공식:
h_t = Activation(W_xx_t + W_hh_t-1 + b)

W_x: 입력에 대한 가중치.
W_h: 은닉 상태에 대한 가중치.
b: 편향.

3. RNN의 한계

Vanishing Gradient Problem: 시퀀스가 길어질수록 초기 정보가 사라져 모델이 학습하기 어려움.
Long-Term Dependency 처리의 어려움: 장기적인 문맥 정보를 기억하는 데 한계가 있음.

MLP (Multi-Layer Perceptron)

1. MLP의 개념

MLP는 다층 퍼셉트론의 약자로, 기본적인 Feedforward Neural Network.
비시퀀스 데이터에서 널리 사용되며, 입력 데이터와 출력 데이터 간의 고차원 비선형 관계를 학습할 수 있음.

2. MLP의 구조

기본적으로 Fully Connected Layer와 Activation Function으로 구성됩니다. 입력층 → 은닉층(들) → 출력층 구조로 되어 있으며, 각 노드는 이전 층의 모든 노드와 연결되는 형태.

공식:
h = σ(Wx + b)

W: 가중치 행렬.
b: 편향.
σ: 비선형 활성화 함수(e.g., ReLU, Sigmoid).

3. MLP의 한계

시퀀스 데이터 처리 불가: 순서나 시간 의존성을 반영하지 못함.
고정된 입력 크기: 유연한 입력 길이를 다룰 수 없음.

그럼 여기서 기존의 LLM은 RNN 을 왜 사용하고 Transformer로 교체한 이유를 정리해보자.

LLM에서 RNN을 사용하는 이유

1. LLM과 시퀀스 데이터

LLM(Large Language Model)은 텍스트와 같은 순차적 데이터를 처리합니다. 이는 단어의 순서, 문맥, 의미 등이 중요하기 때문에, 시퀀스 의존성을 학습하는 것이 필수적입니다.
RNN은 텍스트 데이터의 순차성과 문맥을 학습하는 데 특화된 구조.

2. RNN의 역할

RNN은 단어 간의 관계와 문맥적 의미를 이해하기 위해 LLM의 초기 설계에 자주 사용되었습니다.
- 예: 한 문장에서 각 단어의 순서에 따른 의미를 학습하거나, 문장의 다음 단어를 예측.
단, RNN만으로는 한계가 있었습니다. 장기 의존성을 처리하지 못하고, 학습 속도가 느렸으며, 병렬 처리가 어렵다는 문제가 있음.

RNN의 한계를 해결하기 위한 대안: Transformer

최근의 LLM(GPT, BERT 등)은 Transformer 구조를 사용하며, RNN을 대체함. Transformer는 다음과 같은 이유로 RNN보다 효율적:

병렬 처리 가능:
- RNN은 순차적으로 학습해야 하지만, Transformer는 모든 입력을 병렬로 처리할 수 있음.
Long-Term Dependency 처리:
- Self-Attention 메커니즘을 통해 긴 문맥도 쉽게 학습 가능.
Vanishing Gradient 문제 없음:
- Transformer는 깊은 네트워크에서 더 안정적으로 학습.

결론: 왜 LLM에서 RNN을 대체했는가?

RNN은 순차적 데이터를 처리하는 데 강점이 있지만, LLM에서 요구하는 대규모 데이터 학습과 긴 문맥 이해에는 적합하지 않기에, Transformer 기반 모델(예: GPT, BERT)의 기반으로 대체가 되었다고 한다.

Reference:

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.stackspot.com%2Fen%2Fblog%2Flarge-language-models&psig=AOvVaw2tYYYXAWP8Cfb-3gn7Ia_y&ust=1737786519918000&source=images&cd=vfe&opi=89978449&ved=0CBgQ3YkBahcKEwi44ou03Y2LAxUAAAAAHQAAAAAQCg

리디렉션 알림

www.google.com

https://jitolit.tistory.com/107

MLP 신경망 (Multi-Layer Perceptron)

MLP 란 여러 개의 퍼셉트론 뉴런을 여러 층으로 쌓은 다층신경망 구조입력층과 출력층 사이에 하나 이상의 은닉층을 가지고 있는 신경망이다.인접한 두 층의 뉴런간에는 완전 연결 => fully connected

jitolit.tistory.com

'[Personal studies]' 카테고리의 다른 글

[Personal studies] ECG(EKG), EEG 간단정리 (1)	2025.03.05
[Personal Studies] HTTP && TCP && IP (0)	2025.03.03
[Personal Studies] Monolithic && Microservice 정리 (0)	2025.03.03
[Personal studies] RESTful API Note (0)	2025.03.03
[Personal studies] Agentic AI란? (3)	2025.01.15

현재글[Personal studies]LLM(Large Language Model)이란? feat. 간단정리

dyk98 님의 블로그

Managing My Time More Valuable

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

dyk98 님의 블로그

[Personal studies]LLM(Large Language Model)이란? feat. 간단정리

LLM (Large Language Model)이란?

LLM의 주요 특징

1. 대규모 데이터 학습

2. 트랜스포머(Transformer) 구조

3. 다양한 언어 처리

4. 파라미터 수

LLM의 주요 용도

LLM의 한계

RNN (Recurrent Neural Network)

1. RNN의 개념

2. RNN의 구조

3. RNN의 한계

MLP (Multi-Layer Perceptron)

1. MLP의 개념

2. MLP의 구조

3. MLP의 한계

LLM에서 RNN을 사용하는 이유

1. LLM과 시퀀스 데이터

2. RNN의 역할

RNN의 한계를 해결하기 위한 대안: Transformer

결론: 왜 LLM에서 RNN을 대체했는가?

'[Personal studies]' 카테고리의 다른 글

'[Personal studies]'의 다른글

티스토리툴바

[Personal studies]LLM(Large Language Model)이란? feat. 간단정리

LLM (Large Language Model)이란?

LLM의 주요 특징

1. 대규모 데이터 학습

2. 트랜스포머(Transformer) 구조

3. 다양한 언어 처리

4. 파라미터 수

LLM의 주요 용도

LLM의 한계

RNN (Recurrent Neural Network)

1. RNN의 개념

2. RNN의 구조

3. RNN의 한계

MLP (Multi-Layer Perceptron)

1. MLP의 개념

2. MLP의 구조

3. MLP의 한계

LLM에서 RNN을 사용하는 이유

1. LLM과 시퀀스 데이터

2. RNN의 역할

RNN의 한계를 해결하기 위한 대안: Transformer

결론: 왜 LLM에서 RNN을 대체했는가?

'[Personal studies]' 카테고리의 다른 글

'[Personal studies]'의 다른글

관련글

티스토리툴바