课程笔记https://notes.sjtu.edu.cn/bR8dwNKSTQqrSdtp99lzjA
N-gram 模型
定义:N-gram是由N个连续单词(或字符)构成的序列。
- Unigram(一元模型):只考虑当前的词,不依赖上下文。
- Bigram(二元模型):每个词依赖前一个词。
- Trigram(三元模型):每个词依赖前两个词。
- N-gram(N元模型):每个词依赖前N-1个词。
马尔科夫假设
N-gram模型问题:
无法解决长距离依存问题(long-distance dependencies)
无法对意思相近的词或者句子建模(每个词都是以字符的形式存)
N-gram评测方法:
Extrinsic ( in-vivo) Evaluation