作者陆航航
姓名汉语拼音LuHanghang
学号2019000005082
培养单位兰州财经大学
电话18893915484
电子邮件1142107327@qq.com
入学年份2019-9
学位类别学术硕士
培养级别硕士研究生
学科门类经济学
一级学科名称应用经济学
学科方向金融学
学科代码020204
授予学位经济学硕士学位
第一导师姓名史亚荣
第一导师姓名汉语拼音ShiYarong
第一导师单位兰州财经大学
第一导师职称教授
题名基于文本挖掘和机器学习算法的股票投资研究
英文题名Research on stock investment based on text mining and machine learning algorithms
关键词文本挖掘 机器学习 量化投资 股票市场
外文关键词Text mining ; Machine learning ; Quantitative investment ; Stock market
摘要

作为资本市场的一个重要组成部分,股票市场在整个金融领域中有着十分重要的地位。一直以来,无论是在学术领域还是在资产管理行业,都有很多人希望能够找到一种能够正确地预测股票市场变动方向的方式。过去人们在进行股票价格走向的预测分析时,大部分是从股票市场自身的角度出发,利用证券价格的历史价格,交易量或者是和公司相关的收益指标来分析股票未来价格的变动,很少会从经济新闻、财经自媒体文章、股市评论等文本信息的角度来分析股票未来的价格变动,而随着互联网特别是移动互联网在百姓生活中的普及,越来越多的投资者开始接触到各种财经新闻,并且以此来辅助自己进行投资,因此研究这些财经文本信息对股市的影响,以及如何从这些文本信息中挖掘出有效的特征来对股票市场的走势进行判断有着重要的现实意义。

本文的研究是利用财经新闻文本数据,从文本挖掘的角度来分析财经新闻对股票价格的影响及利用从文本数据中抽取的特征来对股票市场的未来走势进行预测。与市场上常见的技术性指标、基本面指标等结构化数据不同,文本信息属于一种非结构化的数据,要想让模型能够理解这些信息并从中挖掘出一些有用的特征,必须先对收集到的财经新闻进行转换处理,本文首先运用了Python第三方库jieba来收集到的对每条新闻文本进行切词,将每条文本信息转换成一个个单词列表,再利用自然语言处理工具doc2vec将每条文本信息转换成向量形式,之后通过随机森林算法对数量化的文本特征进行特征选择,从而得到最终的进入模型的特征数据。在回测时,本文将股票预测定义为一个二分类模型,即用现在的文本特征来预测第二天股票市场的涨跌情况,预测标的为沪深300指数。最终比较了三种不同类型的机器学习模型支持向量机(SVM)、XGBoost模型和神经网络在该分类任务上的表现情况,结果表明在将文本信息添加进模型之后,模型对标的的预测性能得到提高,这证明了文本信息的有效性,而在所有的机器学习模型当中XGBoost的表现最优。

英文摘要

As an important part of the financial market, the stock market plays a important role in the entire financial field. For a long time, whether in the academic field or in the field of stock investment, there are many people who are full of great interest in the prediction of the direction of the stock market. In the past, when people predicted the trend of stocks, most of them started from the perspective of the stock market itself, using the historical price of securities prices,trading volume or company-related income indicators to analyze the future price changes of stocks, seldom from economic news, financial self-media articles, stock market reviews and other text information to analyze the future price changes of stocks. With the popularization of the Internet, especially the mobile Internet, the speed of information dissemination continues to increase. Investors can easily use computers or mobile phones to obtain financial information from the Internet to assist themselves in making investment decisions. The impact of the stock market and how to use these text information to analyze and predict the changes of stock prices have very important practical significance.

The research of this paper is based on the text information of financial news, from the perspective of text mining to analyze the impact and prediction of financial news on stock prices. Different from structured data such as technical indicators and fundamental indicators


that are common in the market, text information is unstructured data. First, the collected financial news needs to be processed. This article first uses the Python third-party library jieba to segment each news text collected, and convert each text information into a word list, and next use the natural language processing tool Doc2vec to represent the text information in the form of a vector, and then use the random forest algorithm to perform feature selection on the quantified text features, so as to obtain the final features of the model. This paper defines stock forecasting as a two-class model, that is, using the current text features to predict the rise and fall of the stock market the next day, and the forecast target is the CSI 300 Index. Finally, the performance of three machine learning models, support vector machine, XGBoost, and neural network on the classification task was compared. The results show that after adding text information into the model, the model's target prediction performance is improved, which proves that the text information effectiveness. Among all machine learning models, XGBoost performs the best.

学位类型硕士
答辩日期2022-05-29
学位授予地点甘肃省兰州市
语种中文
论文总页数58
参考文献总数47
馆藏号0004192
保密级别公开
中图分类号F83/421
文献类型学位论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/32519
专题金融学院
推荐引用方式
GB/T 7714
陆航航. 基于文本挖掘和机器学习算法的股票投资研究[D]. 甘肃省兰州市. 兰州财经大学,2022.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于文本挖掘和机器学习算法的股票投资研究(2562KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[陆航航]的文章
百度学术
百度学术中相似的文章
[陆航航]的文章
必应学术
必应学术中相似的文章
[陆航航]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。