20人加入学习
(0人评价)
14 文本分析

自然语言处理与机器学习结合 - 文本分析

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第四期 请加入后再学习

文本分类:对文本集按照一定的分类体系和标准进行自动分类标记的过程。

 

[展开全文]

一、分词:利用计算机识别出文本中词汇的过程。

难点:1、歧义:因为歧义造成的不好进行分词;

          2、新词层出不穷:词典以外的词语;

二、分词方法:1、法则式分词法:a:强调的是语言现象;b:FMM/BMM:把句子从左往右或者从右往左扫一遍,遇到字典里的有的最长词就标识出来,遇到不认识的字符串就割成单个字。

                       2、统计式分词法:a、b、动态规划;c。马可夫假设。

三、词性标注:

四:关键词提取:1、TF:衡量一个词在文档中出现的频率,越高越好;2、IDF表示在此文档中分布

[展开全文]

授课教师

统计学博士/加州大学伯克利分校
课程顾问

课程特色

视频(6)
下载资料(1)
作业(1)

学员动态

胡桃夹子zy11 的作业"自然语言处理与机器学习结合-文..."已被批阅
fuyini1130 的作业"自然语言处理与机器学习结合-文..."已被批阅
damogunihao 的作业"自然语言处理与机器学习结合-文..."已被批阅
椰树上的耶稣 的作业"自然语言处理与机器学习结合-文..."已被批阅