主要的思路是利用词的相似度来进行匹配和对比,主要方法是基于词典的方法与基于语料库两种。Hu(KDD 2004)利用词汇之间在WordNet中的同反义来进行比对,Hassan(ACL 2010)与Kamps(LREC 2004)同样利用wordnet进行分析和匹配,构建语义图,然后利用随机游走和最短距离模型进行计算。基于语料的方法中,Turney(ACL 2002)提出Near算子,结合网络资源等信息,分析两者的相关度;Du(WSDM 2010)认为在不同的领域需要不同的情感词典,不同领域之间的情感预料应用是一个迁移问题。
运用传统的文本分类方法是目前的主流,通过Unigram、Bigram、POS、Adj.、Position等方法进行文本表示,涉及支持向量机、朴素贝叶斯、最大熵、决策树等常用机器学习方法;另一方面,倾向转移,如“这家店铺的事物不是很好吃”,这里面的倾向转移难以识别,主要是通过词典信息 (Ikeka IJCNLP 2008)和特征选择 (Li Coling 2010)进行实现。基于词汇的方法主要针对句子中的词倾向性来识别句子的含义。Turney(ACL 2002)用POS进行文本表示,PMI进行词汇倾向分析,最后计算整个句子的情感倾向;Taras(COLING 2008)则利用了句子和词汇混合方法进行联合识别;Qiu(CIKM 2009)提出自学习方法,利用词典信息产生初始标注利用置信度高的样本作为训练集,训练分类器利用启发式规则对于多个分类器进行集成;另外还有半监督方法(Li ACL 2009),建立文档与词汇的共现矩阵,训练Matrix Factorization Model,利用少量的标注语料以及词典的先验知识,同时对于未标注样本进行标注。
Pang(ACL 2004)认为篇章中的客观句子对于篇章整体的观点倾向性没有意义,于是利用图算法从篇章中识别出观点句,剔除客观句,只考虑观点句来识别篇章观点;McDonald(ACL 2007)则认为文章中每句话都能对篇章观点有贡献,所以在句子级倾向性识别与篇章级倾向性识别一体化的基础上,考虑句子的上下文特征,提出结构化CRFs模型;Lin(CIKM 2009)和Mei(WWW 2007)认为篇章整体的观点倾向性是篇章中针对每个子主题的观点倾向性的集成,提出篇章主题信息与观点信息协同挖掘。
跨领域则是目前的一个研究热点,主要是不同领域对下情感倾向会有差异,尤其是比较性观点,另外同样的词在不同的领域倾向不同,不同领域的使用的观点词不同导致特征提取出现问题,另外训练数据比较有限。主要的解决方案有两种,针对不同领域,一方面认为不同领域,特征相同但是数据分析不同(Jiang ACL 2007; Dai AAAI 2007),即特征权重不同,另一种认为不同领域有不同的特征,于是需要构建统一的特征体系(Blitzer ACL 2007; Liu CIKM 2009; Pan WWW 2010)
