自然语言处理与机器学习结合 - 文本分析
情感分析
文本分类:对文本集按照一定的分类体系和标准进行自动分类标记的过程。
一、分词:利用计算机识别出文本中词汇的过程。
难点:1、歧义:因为歧义造成的不好进行分词;
2、新词层出不穷:词典以外的词语;
二、分词方法:1、法则式分词法:a:强调的是语言现象;b:FMM/BMM:把句子从左往右或者从右往左扫一遍,遇到字典里的有的最长词就标识出来,遇到不认识的字符串就割成单个字。
2、统计式分词法:a、b、动态规划;c。马可夫假设。
三、词性标注:
四:关键词提取:1、TF:衡量一个词在文档中出现的频率,越高越好;2、IDF表示在此文档中分布
CDA人工智能社区
工作时间:9:00-19:00
陈老师:13077998983
邮箱: edu_cda_cn@foxmail.com