恩佐2登录 > SEO算法 > 新宝7恩佐登录机器学习算法怎么使用中文语料

新宝7恩佐登录机器学习算法怎么使用中文语料

admin SEO算法 2020年01月30日

  我想用机器学习方法对中文文本的情感倾向进行分析,比方说用SVM分类器,对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢?语义相似度怎么计算?另外,我还考虑过使用...

  我想用机器学习方法对中文文本的情感倾向进行分析,比方说用SVM分类器,对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢?语义相似度怎么计算?

  另外,我还考虑过使用SO-PMI算法进行词语情感倾向性分析,但是关于这个算法的资料我没怎么找到,不清楚应该怎样编程实现算法计算两个词语的PMI值

  麻烦了解这方面信息的朋友帮帮忙解答一下,感激不尽!展开我来答

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  看出啥意思了吧,对于一个句子,新宝7恩佐登录特征词出现的位置就标1,不出现就标0。所以句子就成了向量,用欧氏距离、新宝7登录余弦夹角等等方法就可以计算两个向量的相似度,那就对应句子的相似度了。

  这里面特征词选择方法有很多,常见的有TF、DF、TF-IDF等等,也可以人为指定。

  若想了解更牛逼的办法的话 先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好,就可以独步江湖 称霸机器学习领域了~~哈哈~~追答是这么操作的~量大的话 可以考虑分时间段分类别统计 这种方法分的细些 效果好~再不行就搞分类追问那如果我要用SO-PMI算法分析词语情感倾向的话,是不是应该选取种子词,然后分别统计候选词和种子词在特定文本中的词频,再分别计算每个候选词的PMI值?假设我手上的数据是一个新闻网站某个月的某个频道的所有新闻报道,这个词频统计的基数是不是太大了些?

标签: so算法