作者杨梦玲
姓名汉语拼音yangmengling
学号2017000003115
培养单位兰州财经大学
电话18368095150
电子邮件yangmengling1994@163.com
入学年份2017
学位类别专业硕士
培养级别硕士研究生
学科门类经济学
一级学科名称应用统计
学科代码0252
授予学位经济学硕士
第一导师姓名黄恒君
第一导师姓名汉语拼音huanghengjun
第一导师单位兰州财经大学
第一导师职称教授
题名基于PU学习算法的网购虚假评论识别应用
英文题名Identification and Application of false comments in online Shopping based on PU Learning algorithm
关键词虚假评论 分类器 半监督学习 PU学习算法 网络爬虫
外文关键词False comment;Classifier;Semi-supervised learning;PU learning algorithm;Web crawler
摘要

电子商务的日益发展,改变了人们的日常消费习惯,网上购物成为消费主要途径。 在线评论作为消费者购物的一个重要依据,成为商家和买家关注的焦点。好评率高的商 家店铺更容易获得消费者的青睐。为提升店铺好评率,部分商家利用虚假评论误导消费 者来获取利益。监管部门对于虚假评论店铺也制定了惩罚措施,并对虚假评论进行识别, 但是商家进行虚假评论的方式更加隐蔽,很难利用人工方法识别海量评论信息。 为快速准确地识别虚假评论,本文试图建立一套虚假评论识别体系,包括:数据源 获取、文本数据清洗、训练集标注、模型选择与模型应用。 首先通过专家指导和机器学习标注相结合构建训练数据集,降低真实评论错误标注 的比例,从而提高训练数据的预测能力。其次使用半监督学习的方法,利用少量标记样 本,减少标记样本的工作量,利用 PU 学习算法与朴素贝叶斯、支持向量机、fastText、 GBDT、XGBoost、LightGBM 不同分类器进行训练,选取最优分类器与 PU 学习算法结 合。最后对预测结果进行可视化分析,对比虚假评论和真实评论之间的差异。PU 学习 算法是一种半监督学习,通过将所有正样本和未标记样本进行随机组合来创建训练集。 简化了数据标注的流程并提高了分类精度。PU 学习算法尤其适用于正例的数量有限并 且拥有大量未标记的数据情况,该算法在虚假评论识别领域得到广泛应用。 作为应用,利用网络爬虫技术采集电商平台的商品评论实例数据。通过专家指导和 机器学习方法部分标注真实评论数据,利用 PU 学习算法进行分类。实例结果表明:本 文方法具有良好的虚假评论识别的性能,这为消费者和监管部门提供了新的方法,具有 实际应用价值。

英文摘要

The increasing development of e-commerce has changed people's daily consumption habits, online shopping has become the main way of consumption. Online reviews, as an important basis for consumer shopping, have become the focus of attention of merchants and buyers. Merchant stores with high praise rates are more likely to win consumers' favor. In order to improve the store's positive rate, some merchants use false reviews to mislead consumers to gain benefits. Supervisory departments have also formulated punitive measures for fake review shops and identified fake reviews, but the way merchants conduct fake reviews is more concealed and it is difficult to use artificial methods to identify massive reviews. In order to quickly and accurately identify false comments, this thesis attempts to establish a set of false comment recognition methods, including: data source acquisition, text data cleaning, training set annotation, model selection and model application. Firstly, a training data set is constructed through the combination of expert guidance and machine learning annotation to reduce the proportion of false annotations of real reviews, thereby improving the prediction ability of the training data. Secondly, using semi-supervised learning method, using a small number of labeled samples to reduce the workload of labeled samples, using PU learning algorithms and Naive Bayes, support vector machine, fastText, GBDT, XGBoost, LightGBM and different classifiers to train and select the optimal classifier to combine PU learning algorithms. Finally, a visual analysis of the prediction results is performed to compare the differences between fake and real reviews. The PU learning algorithm is a semi-supervised learning that creates a training set by randomly combining all positive samples and unlabeled samples. Simplified data labeling process and improved classification accuracy. The PU learning algorithm is particularly suitable for cases with a limited number of positive examples and a large amount of unlabeled data. This algorithm is widely used in the field of false comment recognition. As an application, we use the web crawler technology to collect product review instance data of the e-commerce platform. Annotate real review data through expert guidance and machine learning methods, by using PU learning algorithms for classification. The example results show that the method in this thesis has good performance of false comment recognition, which provides a new method for consumers and regulatory authorities, and has practical application value.

学位类型硕士
答辩日期2020-05-24
学位授予地点甘肃省兰州市
研究方向大数据分析
语种中文
论文总页数57
论文印刷版中手工粘贴图片页码0
插图总数0
插表总数0
参考文献总数0
馆藏号0003159
保密级别公开
中图分类号C8/231
保密年限0
文献类型学位论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/18999
专题统计与数据科学学院
推荐引用方式
GB/T 7714
杨梦玲. 基于PU学习算法的网购虚假评论识别应用[D]. 甘肃省兰州市. 兰州财经大学,2020.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
35607.pdf(1515KB)学位论文 开放获取CC BY-NC-SA浏览 下载
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[杨梦玲]的文章
百度学术
百度学术中相似的文章
[杨梦玲]的文章
必应学术
必应学术中相似的文章
[杨梦玲]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 35607.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。