Information Retrieval 1주차 - 온라인 강의 학습 보고서
마감일: 9월 18일(목) 19시까지
📚 온라인 강의 주요 내용 정리
참고자료: https://acute-larkspur-9ce.notion.site/c4297ca001cd4ebcbef2a2b199915d66
🎯 강의 주제 및 주요 학습 포인트
강의 주제: Information Retrieval 개념 및 여러 방법들을 학습 및 적용
📊 데이터 특성 이해
- 텍스트 데이터의 특성 분석 (한글 문서 역색인, 형태소 분석)
- 문서 구조 및 메타데이터 이해 (Elasticsearch 인덱싱 구조)
- 데이터 전처리 방법론 (Nori 형태소 분석기 활용)
📈 차원축소 및 시각화
- 벡터 유사도 계산 및 시각화 방법
- 고차원 벡터 데이터 시각화 (ANN 알고리즘)
- 클러스터링 및 패턴 발견 (벡터 DB 비교 분석)
🤖 ML 기반 정보 검색
- 기계학습을 활용한 검색 알고리즘 (BM25, TF-IDF)
- 랭킹 모델 및 성능 평가 (Precision, Recall, MRR, MAP, NDCG)
- 딥러닝 기반 검색 시스템 (ColBERT, Sentence Transformer)
🔗 벡터 검색 및 임베딩
- 벡터 유사도 검색 알고리즘 (Elasticsearch, Faiss, Pinecone)
- 임베딩 생성 및 활용 (OpenAI Embeddings, Sentence BERT)
💬 대화형 IR 및 RAG
- LLM 활용 정보 검색 (JSON mode, function calling)
- RAG (Retrieval Augmented Generation) 구현
- 대화형 IR 시스템 구축
🔑 중요 개념 및 원리 정리 (7가지)
1️⃣ 역색인 (Inverted Index)
- 개념: 문서에서 단어가 어느 위치에 나타나는지를 기록하는 자료구조
- 원리: 각 단어(term)를 키로 하고, 해당 단어가 포함된 문서 ID와 위치 정보를 값으로 저장
- 적용 사례: Elasticsearch의 핵심 인덱싱 구조, 빠른 텍스트 검색을 위한 기본 기술
2️⃣ BM25 (Best Matching 25)
- 개념: TF-IDF를 개선한 확률적 랭킹 함수로, 문서와 쿼리 간의 관련성을 계산
- 원리: 문서 길이 정규화와 TF-IDF를 결합하여 더 정확한 관련성 점수 계산
- 적용 사례: Elasticsearch의 기본 랭킹 알고리즘, 검색 결과의 품질 향상
3️⃣ 벡터 유사도 검색 (Vector Similarity Search)
- 개념: 문서와 쿼리를 벡터로 변환하여 코사인 유사도 등으로 관련성 계산
- 원리: 임베딩 모델을 통해 텍스트를 고차원 벡터로 변환하고 유사도 계산
- 적용 사례: Faiss, Pinecone 등 벡터 DB에서의 유사 문서 검색
4️⃣ ColBERT (Contextualized Late Interaction over BERT)
- 개념: BERT 기반의 효율적인 검색 모델로, 쿼리와 문서의 토큰별 유사도 계산
- 원리: Bi-Encoder 방식보다 정확하면서도 별도 벡터 DB 없이 검색 가능
- 적용 사례: 정확한 의미 기반 검색이 필요한 고품질 검색 시스템
5️⃣ RAG (Retrieval Augmented Generation)
- 개념: 검색과 생성 모델을 결합하여 외부 지식을 활용한 답변 생성
- 원리: 관련 문서를 검색하여 LLM의 컨텍스트로 제공하여 정확한 답변 생성
- 적용 사례: 대화형 AI 시스템, 지식 기반 질의응답 시스템
6️⃣ ANN (Approximate Nearest Neighbor)
- 개념: 고차원 벡터에서 유사한 벡터를 효율적으로 찾는 근사 알고리즘
- 원리: 정확한 검색 대신 근사 검색으로 계산 복잡도를 크게 줄임
- 적용 사례: 대규모 벡터 데이터베이스에서의 빠른 유사도 검색
7️⃣ 평가 지표 (Evaluation Metrics)
- 개념: 검색 시스템의 성능을 측정하는 다양한 지표들
- 원리: Precision, Recall, MRR, MAP, NDCG 등을 통해 검색 품질 정량화
- 적용 사례: 검색 알고리즘 성능 비교 및 최적화 기준
💭 학습 중 느낀 점 및 적용 가능성
🎯 느낀점 작성
-
전통적 검색에서 벡터 검색으로의 패러다임 전환: 기존의 키워드 기반 검색에서 의미 기반 검색으로의 발전 과정을 이해할 수 있었습니다. 특히 BM25에서 ColBERT, RAG로 이어지는 기술 발전이 매우 흥미로웠습니다.
-
실용적 도구들의 다양성: Elasticsearch, Faiss, Pinecone 등 각각의 특성과 장단점을 비교 분석하면서, 실제 프로젝트에서 상황에 맞는 도구 선택의 중요성을 깨달았습니다.
-
평가 지표의 중요성: Precision, Recall, MRR, MAP, NDCG 등 다양한 평가 지표를 통해 검색 시스템의 성능을 정량적으로 측정하는 방법을 배웠습니다.
-
LLM과 IR의 융합: RAG를 통해 검색과 생성이 결합된 새로운 패러다임을 경험하며, AI 기술의 융합적 발전 방향을 이해할 수 있었습니다.
🚀 적용 가능성
- 기업 내부 지식 관리 시스템: RAG를 활용한 직원용 지식 검색 시스템 구축
- 고객 서비스 챗봇: 벡터 검색과 LLM을 결합한 지능형 고객 상담 시스템
- 문서 자동 분류 및 검색: 대규모 문서 데이터베이스에서의 효율적인 정보 검색
- 추천 시스템: 사용자 행동 데이터와 콘텐츠 임베딩을 활용한 개인화 추천
- 법률/의료 분야 전문 검색: 도메인 특화 임베딩을 활용한 전문 지식 검색 시스템
📋 추가 학습이 필요한 부분 및 계획
🔬 벡터 데이터베이스 심화 학습
- Faiss 고급 기능: 인덱스 타입별 특성과 최적화 방법
- Pinecone 클라우드 서비스: 확장성과 성능 최적화 전략
- 자체 벡터 DB 구축: 분산 환경에서의 벡터 검색 시스템 설계
🧠 LLM과 IR 통합 기술
- 고급 RAG 기법: Multi-hop reasoning, ReAct 패턴 등
- 임베딩 모델 최적화: 도메인 특화 임베딩 학습 및 파인튜닝
- 검색 결과 후처리: LLM을 활용한 결과 재랭킹 및 요약
🛠️ 실무 적용 프로젝트
- 대규모 데이터셋 실험: 실제 기업 데이터를 활용한 성능 벤치마킹
- 멀티모달 검색: 텍스트, 이미지, 오디오를 통합한 검색 시스템
- 실시간 검색 최적화: 지연시간과 정확도의 트레이드오프 최적화
📊 학습 성과 요약
✅ 완료된 학습 내용
- 총 16개 강의, 259페이지 완전 학습
- 24개 핵심 개념 체계적 정리
- 7가지 중요 개념 상세 분석
- 실무 도구 활용법 습득 (Elasticsearch, Faiss, Pinecone, ColBERT)
🎯 핵심 성과
- Information Retrieval 전반에 대한 깊이 있는 이해
- 전통적 검색에서 현대적 벡터 검색까지의 발전 과정 파악
- 실무 적용 가능한 검색 시스템 구축 역량 확보
- LLM과 IR 기술의 융합을 통한 새로운 패러다임 이해