본문 바로가기

Al Basic/NLP8

[NLP] ELMo 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' ELMo : Embeddings from Language Models ELMo는 사전 훈련된 언어 모델을 사용하며, 다양한 문맥에서 사용되는 단어들을 다르게 임베딩한다는 특징을 지닌다. → 눈(Eye)과 눈(Snow)는 다르게 임베딩된다! ElMo는 개별 단어에 임베딩 값을 할당할 때 모든 입력 시퀀스(input sequence)의 정보를 사용한다. → 순방향과 역방향의 언어 모델을 모두 학습하는 bi-directional LM이다. → 앞서 등장한 단어들 뿐만 아니라 이후에 등장하는 단어들을 고려하여 특정 단어의 임베딩을 산출한다. (LST.. 2023. 10. 11.
[NLP] Topic Modeling 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Topic Modeling 특정 문서가 갖는 Topic의 비중을 통해 해당 문서를 K(=Topic의 수) 차원의 벡터로 표현할 수 있다. 이를 통해 각 문서 간의 유사도를 계산할 수 있기 때문에 Topic Modeling은 Distributed Representation을 하는 하나의 대안이 된다. Topic Modeling을 하기 위한 가장 간단한 접근은 LSA(Latent Semantic Analysis)이다. $$(U_{k}^{T}U_{k}) \Sigma_{k}V_{k}^{T} = U_{k}^{T}A_{k}$$ 위와 같은 LSA를 통해 .. 2023. 10. 4.
[NLP] Dimensionality Reduction 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Dimensionality Reduction 텍스트 데이터가 BoW(Bag-of-Words)로 표현되었을 때, 실제로는 일부 단어만이 text mining task와 연관되어있다. High dimensionality : 단어의 수가 문서의 수보다 많다. → 기존의 통계적 방법론을 사용하기에 한계가 있다. Sparseness : TDM의 대부분의 원소가 0으로 이루어져 있다. → 저장(메모리)과 연산의 비효율성을 초래한다. → 연산의 효율성을 높이고 텍스트 마이닝의 성능을 높이기 위해서는 차원 축소(Dimensionality Reduction).. 2023. 10. 3.
[NLP] Text Representation 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Count-based Representations 문서 내 사용되는 단어의 수나 문서의 길이가 문서마다 다르기 때문에 텍스트 데이터를 알고리즘에 적용하기 위해서는 각 단어를 고정된 길이의 벡터로 표현하는 것이 중요하다. 이때 각 단어가 등장한 횟수를 기반으로 표현하는 것을 Count-based Representation 라고 한다. 전체 문서에서 등장한(= corpus 내에 있는) 단어의 수가 $d$이고 각 문서를 $x$ 라고 할 때, $x \in R^{d}$ 라고 할 수 있다. 1) Bag of Words(BoW) 단어들의 빈도로부터 내용.. 2023. 9. 25.
[NLP] Text Preprocessing 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Introduction to NLP Phonology(음운론) : 사람의 음성을 어떠한 음절 혹은 글자로 바꿀 것인가. (ex. Speech to Text) Morphology(형태론) : 주어진 텍스트를 의미가 있는 단위로 어떻게 쪼갤 것인가. Syntax(통사론) : 단어나 토큰 간의 구조적 관계가 어떠한가. (주어, 동사, 목적어, ...) Semantics(의미론) : 주어진 텍스트가 어떤 의미를 지니는가. Pragmatics(화용론) : 화자의 발화 의도는 무엇인가. 자연어처리는 고전적으로 rule-based approach와 sta.. 2023. 9. 20.
[NLP] Introduction to Text Analytics 고려대학교 산업경영공학부 DSBA 강필성 교수님의 '[Korea University] Unstructured Data Analysis(Text Analytics)' Text Analytics(Text Mining) 텍스트 마이닝(Text Mining)이란 정제되지 않은 텍스트 데이터로 부터 유의미한 정보나 지식을 추출하는 것을 의미한다. Information Abstraction/Summarization/Visualization : Word Cloud 등을 통해 방대한 양의 정보를 요약하고 시각화한다. Document Clustering : 문서를 클러스터화하고 각각의 클러스터에서 대표적인 키워드를 추출한다. Topic Extraction : LDA 등을 통해 문서를 분석하여 말뭉치(corpus)에서 잠.. 2023. 9. 13.