一、分词:利用计算机识别出文本中词汇的过程。
难点:1、歧义:因为歧义造成的不好进行分词;
2、新词层出不穷:词典以外的词语;
二、分词方法:1、法则式分词法:a:强调的是语言现象;b:FMM/BMM:把句子从左往右或者从右往左扫一遍,遇到字典里的有的最长词就标识出来,遇到不认识的字符串就割成单个字。
2、统计式分词法:a、b、动态规划;c。马可夫假设。
三、词性标注:
四:关键词提取:1、TF:衡量一个词在文档中出现的频率,越高越好;2、IDF表示在此文档中分布
一、分词:利用计算机识别出文本中词汇的过程。
难点:1、歧义:因为歧义造成的不好进行分词;
2、新词层出不穷:词典以外的词语;
二、分词方法:1、法则式分词法:a:强调的是语言现象;b:FMM/BMM:把句子从左往右或者从右往左扫一遍,遇到字典里的有的最长词就标识出来,遇到不认识的字符串就割成单个字。
2、统计式分词法:a、b、动态规划;c。马可夫假设。
三、词性标注:
四:关键词提取:1、TF:衡量一个词在文档中出现的频率,越高越好;2、IDF表示在此文档中分布