-
[3월 2주차-3/11(2)]🧠 언어 모델 (Language Model)Why Not SW CAMP 5기/수업 기록 2025. 3. 11. 11:48
단어 시퀀스에 확률을 할당하는 모델로, 특정 문장이 얼마나 자연스러운지를 평가하는 역할을 함. 언어 모델을 만드는 방법에는 통계 기반 접근법과 인공 신경망 기반 접근법이 있음.
📌 1. 언어 모델링 (Language Modeling)
주어진 단어들로부터 아직 모르는 단어를 예측하는 작업
언어 모델은 이전 단어들을 기반으로 다음 단어가 등장할 확률을 계산하여 문장의 자연스러움을 평가하는 데 사용됨.
🔹 2. 통계적 언어 모델 (Statistical Language Model, SLM)
이전 단어로부터 다음 단어가 등장할 확률을 계산하는 방식
✅ 특징
- 단어의 등장 빈도를 기반으로 카운트(count) 방식으로 확률을 계산.
- 대표적인 예로 N-gram 모델이 있음.
- 카운트 기반 접근법의 한계: 희소 문제(Sparsity Problem) 발생 → 학습 데이터에 등장하지 않은 단어 조합을 예측하기 어려움.
🔹 3. N-gram 언어 모델
N개의 연속적인 단어 시퀀스를 기반으로 확률을 계산하는 모델
✅ 특징
- SLM의 일종으로, 일부 단어만 고려하는 접근법.
- N 값에 따라 고려하는 단어 개수가 달라짐.
- Unigram (1-gram): 각 단어를 독립적으로 다룸.
- Bigram (2-gram): 두 개의 연속된 단어를 고려.
- Trigram (3-gram): 세 개의 연속된 단어를 고려.
- N을 선택하는 것은 Trade-off 관계
- N이 크면 문맥을 더 많이 고려할 수 있지만 희소 문제 발생.
- N이 작으면 데이터 부족 문제는 줄지만 문맥을 충분히 반영하기 어려움.
🔻 한계점
- 데이터에서 학습되지 않은 단어 조합을 처리하는 데 어려움 (희소 문제)
- 긴 문맥을 반영하기 어려움
🔹 4. 펄플렉서티 (Perplexity, PPL)
언어 모델의 성능을 평가하는 지표
✅ 특징
- 모델이 예측한 확률 분포가 얼마나 혼란스러운지(perplexed) 측정.
- 값이 낮을수록 모델의 성능이 좋음 → 더 자연스러운 문장을 생성할 가능성이 높음.
- 하지만 낮은 값이 항상 사람이 느끼기에 좋은 언어 모델을 의미하는 것은 아님.
🔹 5. BERT와 신경망 언어 모델
딥러닝을 활용한 신경망 기반 언어 모델
✅ 특징
- 통계적 접근법(N-gram)과 달리, 딥러닝을 활용하여 문맥을 더욱 풍부하게 학습.
- 대표적인 신경망 기반 언어 모델:
- BERT (Bidirectional Encoder Representations from Transformers)
- GPT (Generative Pre-trained Transformer)
- RNN / LSTM 기반 언어 모델
- 딥러닝 모델은 희소 문제를 해결하고 더 긴 문맥을 반영할 수 있음
📌 BERT는 단방향 모델이 아니라, 문장 내 일부 단어를 마스킹하여 학습하는 "Masked Language Model (MLM)" 기법을 사용함. 이를 통해 양방향 문맥을 고려하여 단어를 예측할 수 있음. 🚀
🎯 최종 요약
✅ 언어 모델 (Language Model): 단어 시퀀스에 확률을 할당하는 모델.
✅ 통계적 언어 모델 (SLM): 단어의 빈도를 기반으로 확률을 계산.
✅ N-gram 모델: 일부 단어만 고려하여 예측하는 방식 (Bigram, Trigram 등).
✅ Perplexity (PPL): 언어 모델의 성능을 평가하는 지표 (낮을수록 좋음).
✅ 신경망 기반 모델 (BERT, GPT): 딥러닝을 이용해 문맥을 더욱 풍부하게 반영하는 모델.📌 NLP에서 언어 모델을 잘 활용하면 자연스럽고 정확한 텍스트 생성과 분석이 가능함! 🚀
'Why Not SW CAMP 5기 > 수업 기록' 카테고리의 다른 글
[3월 2주차-3/11(4)]🏙️ 블로거들이 추천하는 서울 명소 분석하기! (WordCloud 시각화) (1) 2025.03.11 [3월 2주차-3/11(3)]🏆 카운트 기반의 단어 표현 (Bag of Words) (1) 2025.03.11 [3월 2주차-3/11(1)]🛠 한국어 전처리 패키지 (5) 2025.03.11 [3월 1주차-3/7(3)]텍스트 전처리4- 원-핫 인코딩, 데이터의 분리 (0) 2025.03.07 [3월 1주차-3/7(2)]텍스트 전처리3-정수 인코딩, 패딩 (0) 2025.03.07