본문 바로가기

분류 전체보기26

[NLP] ELMo 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' ELMo : Embeddings from Language Models ELMo는 사전 훈련된 언어 모델을 사용하며, 다양한 문맥에서 사용되는 단어들을 다르게 임베딩한다는 특징을 지닌다. → 눈(Eye)과 눈(Snow)는 다르게 임베딩된다! ElMo는 개별 단어에 임베딩 값을 할당할 때 모든 입력 시퀀스(input sequence)의 정보를 사용한다. → 순방향과 역방향의 언어 모델을 모두 학습하는 bi-directional LM이다. → 앞서 등장한 단어들 뿐만 아니라 이후에 등장하는 단어들을 고려하여 특정 단어의 임베딩을 산출한다. (LST.. 2023. 10. 11.
[NLP] Topic Modeling 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Topic Modeling 특정 문서가 갖는 Topic의 비중을 통해 해당 문서를 K(=Topic의 수) 차원의 벡터로 표현할 수 있다. 이를 통해 각 문서 간의 유사도를 계산할 수 있기 때문에 Topic Modeling은 Distributed Representation을 하는 하나의 대안이 된다. Topic Modeling을 하기 위한 가장 간단한 접근은 LSA(Latent Semantic Analysis)이다. $$(U_{k}^{T}U_{k}) \Sigma_{k}V_{k}^{T} = U_{k}^{T}A_{k}$$ 위와 같은 LSA를 통해 .. 2023. 10. 4.
[NLP] Dimensionality Reduction 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Dimensionality Reduction 텍스트 데이터가 BoW(Bag-of-Words)로 표현되었을 때, 실제로는 일부 단어만이 text mining task와 연관되어있다. High dimensionality : 단어의 수가 문서의 수보다 많다. → 기존의 통계적 방법론을 사용하기에 한계가 있다. Sparseness : TDM의 대부분의 원소가 0으로 이루어져 있다. → 저장(메모리)과 연산의 비효율성을 초래한다. → 연산의 효율성을 높이고 텍스트 마이닝의 성능을 높이기 위해서는 차원 축소(Dimensionality Reduction).. 2023. 10. 3.
[NLP] Text Representation 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Count-based Representations 문서 내 사용되는 단어의 수나 문서의 길이가 문서마다 다르기 때문에 텍스트 데이터를 알고리즘에 적용하기 위해서는 각 단어를 고정된 길이의 벡터로 표현하는 것이 중요하다. 이때 각 단어가 등장한 횟수를 기반으로 표현하는 것을 Count-based Representation 라고 한다. 전체 문서에서 등장한(= corpus 내에 있는) 단어의 수가 $d$이고 각 문서를 $x$ 라고 할 때, $x \in R^{d}$ 라고 할 수 있다. 1) Bag of Words(BoW) 단어들의 빈도로부터 내용.. 2023. 9. 25.
[Data Engineering] Prometheus & Grafana 데이터 수집 아키텍쳐 IT 시스템이 복잡해지고 분산된 환경과 리소스 매니저를 사용하는 환경이 겹치면서 polling 방식의 활동도가 높아졌다. polling을 이용해서 데이터를 수집하기 쉬운 오픈소스인 Prometheus의 대두가 이러한 방식을 가속화시켰다. 현재 가장 쉽게 구출할 수 있는 모니터링 시스템은 다음과 같은 구조를 지닌다. Prometheus(프로메테우스) 프로메테우스 는 대상 시스템으로부터 각종 모니터링 지표를 수집하여 저장하고 검색할 수 있는 시스템이다. 프로메테우스가 주기적으로 Exporter(모니터링 대상 시스템)로부터 polling 방식으로 metric을 읽어서 수집한다. 그라파나를 통해 시각화를 지원한다. 도커를 이용하여 프로메테우스를 사용하는 방법은 다음과 같다. 1. 최신 버전.. 2023. 9. 24.
[MLOps] LLMOps https://tech.kakaoenterprise.com/196 2023. 9. 23.