Information Retrieval 1주차 - 온라인 강의 학습 보고서

마감일: 9월 18일(목) 19시까지

📚 온라인 강의 주요 내용 정리

참고자료: https://acute-larkspur-9ce.notion.site/c4297ca001cd4ebcbef2a2b199915d66

🎯 강의 주제 및 주요 학습 포인트

강의 주제: Information Retrieval 개념 및 여러 방법들을 학습 및 적용

📊 데이터 특성 이해

텍스트 데이터의 특성 분석 (한글 문서 역색인, 형태소 분석)
문서 구조 및 메타데이터 이해 (Elasticsearch 인덱싱 구조)
데이터 전처리 방법론 (Nori 형태소 분석기 활용)

📈 차원축소 및 시각화

벡터 유사도 계산 및 시각화 방법
고차원 벡터 데이터 시각화 (ANN 알고리즘)
클러스터링 및 패턴 발견 (벡터 DB 비교 분석)

🤖 ML 기반 정보 검색

기계학습을 활용한 검색 알고리즘 (BM25, TF-IDF)
랭킹 모델 및 성능 평가 (Precision, Recall, MRR, MAP, NDCG)
딥러닝 기반 검색 시스템 (ColBERT, Sentence Transformer)

🔗 벡터 검색 및 임베딩

벡터 유사도 검색 알고리즘 (Elasticsearch, Faiss, Pinecone)
임베딩 생성 및 활용 (OpenAI Embeddings, Sentence BERT)

💬 대화형 IR 및 RAG

LLM 활용 정보 검색 (JSON mode, function calling)
RAG (Retrieval Augmented Generation) 구현
대화형 IR 시스템 구축

🔑 중요 개념 및 원리 정리 (7가지)

1️⃣ 역색인 (Inverted Index)

개념: 문서에서 단어가 어느 위치에 나타나는지를 기록하는 자료구조
원리: 각 단어(term)를 키로 하고, 해당 단어가 포함된 문서 ID와 위치 정보를 값으로 저장
적용 사례: Elasticsearch의 핵심 인덱싱 구조, 빠른 텍스트 검색을 위한 기본 기술

2️⃣ BM25 (Best Matching 25)

개념: TF-IDF를 개선한 확률적 랭킹 함수로, 문서와 쿼리 간의 관련성을 계산
원리: 문서 길이 정규화와 TF-IDF를 결합하여 더 정확한 관련성 점수 계산
적용 사례: Elasticsearch의 기본 랭킹 알고리즘, 검색 결과의 품질 향상

3️⃣ 벡터 유사도 검색 (Vector Similarity Search)

개념: 문서와 쿼리를 벡터로 변환하여 코사인 유사도 등으로 관련성 계산
원리: 임베딩 모델을 통해 텍스트를 고차원 벡터로 변환하고 유사도 계산
적용 사례: Faiss, Pinecone 등 벡터 DB에서의 유사 문서 검색

4️⃣ ColBERT (Contextualized Late Interaction over BERT)

개념: BERT 기반의 효율적인 검색 모델로, 쿼리와 문서의 토큰별 유사도 계산
원리: Bi-Encoder 방식보다 정확하면서도 별도 벡터 DB 없이 검색 가능
적용 사례: 정확한 의미 기반 검색이 필요한 고품질 검색 시스템

5️⃣ RAG (Retrieval Augmented Generation)

개념: 검색과 생성 모델을 결합하여 외부 지식을 활용한 답변 생성
원리: 관련 문서를 검색하여 LLM의 컨텍스트로 제공하여 정확한 답변 생성
적용 사례: 대화형 AI 시스템, 지식 기반 질의응답 시스템

6️⃣ ANN (Approximate Nearest Neighbor)

개념: 고차원 벡터에서 유사한 벡터를 효율적으로 찾는 근사 알고리즘
원리: 정확한 검색 대신 근사 검색으로 계산 복잡도를 크게 줄임
적용 사례: 대규모 벡터 데이터베이스에서의 빠른 유사도 검색

7️⃣ 평가 지표 (Evaluation Metrics)

개념: 검색 시스템의 성능을 측정하는 다양한 지표들
원리: Precision, Recall, MRR, MAP, NDCG 등을 통해 검색 품질 정량화
적용 사례: 검색 알고리즘 성능 비교 및 최적화 기준

💭 학습 중 느낀 점 및 적용 가능성

🎯 느낀점 작성

전통적 검색에서 벡터 검색으로의 패러다임 전환: 기존의 키워드 기반 검색에서 의미 기반 검색으로의 발전 과정을 이해할 수 있었습니다. 특히 BM25에서 ColBERT, RAG로 이어지는 기술 발전이 매우 흥미로웠습니다.
실용적 도구들의 다양성: Elasticsearch, Faiss, Pinecone 등 각각의 특성과 장단점을 비교 분석하면서, 실제 프로젝트에서 상황에 맞는 도구 선택의 중요성을 깨달았습니다.
평가 지표의 중요성: Precision, Recall, MRR, MAP, NDCG 등 다양한 평가 지표를 통해 검색 시스템의 성능을 정량적으로 측정하는 방법을 배웠습니다.
LLM과 IR의 융합: RAG를 통해 검색과 생성이 결합된 새로운 패러다임을 경험하며, AI 기술의 융합적 발전 방향을 이해할 수 있었습니다.

🚀 적용 가능성

기업 내부 지식 관리 시스템: RAG를 활용한 직원용 지식 검색 시스템 구축
고객 서비스 챗봇: 벡터 검색과 LLM을 결합한 지능형 고객 상담 시스템
문서 자동 분류 및 검색: 대규모 문서 데이터베이스에서의 효율적인 정보 검색
추천 시스템: 사용자 행동 데이터와 콘텐츠 임베딩을 활용한 개인화 추천
법률/의료 분야 전문 검색: 도메인 특화 임베딩을 활용한 전문 지식 검색 시스템

📋 추가 학습이 필요한 부분 및 계획

🔬 벡터 데이터베이스 심화 학습

Faiss 고급 기능: 인덱스 타입별 특성과 최적화 방법
Pinecone 클라우드 서비스: 확장성과 성능 최적화 전략
자체 벡터 DB 구축: 분산 환경에서의 벡터 검색 시스템 설계

🧠 LLM과 IR 통합 기술

고급 RAG 기법: Multi-hop reasoning, ReAct 패턴 등
임베딩 모델 최적화: 도메인 특화 임베딩 학습 및 파인튜닝
검색 결과 후처리: LLM을 활용한 결과 재랭킹 및 요약

🛠️ 실무 적용 프로젝트

대규모 데이터셋 실험: 실제 기업 데이터를 활용한 성능 벤치마킹
멀티모달 검색: 텍스트, 이미지, 오디오를 통합한 검색 시스템
실시간 검색 최적화: 지연시간과 정확도의 트레이드오프 최적화

📊 학습 성과 요약

✅ 완료된 학습 내용

총 16개 강의, 259페이지 완전 학습
24개 핵심 개념 체계적 정리
7가지 중요 개념 상세 분석
실무 도구 활용법 습득 (Elasticsearch, Faiss, Pinecone, ColBERT)

🎯 핵심 성과

Information Retrieval 전반에 대한 깊이 있는 이해
전통적 검색에서 현대적 벡터 검색까지의 발전 과정 파악
실무 적용 가능한 검색 시스템 구축 역량 확보
LLM과 IR 기술의 융합을 통한 새로운 패러다임 이해