作者 | 陆航航 |
姓名汉语拼音 | LuHanghang |
学号 | 2019000005082 |
培养单位 | 兰州财经大学 |
电话 | 18893915484 |
电子邮件 | 1142107327@qq.com |
入学年份 | 2019-9 |
学位类别 | 学术硕士 |
培养级别 | 硕士研究生 |
学科门类 | 经济学 |
一级学科名称 | 应用经济学 |
学科方向 | 金融学 |
学科代码 | 020204 |
授予学位 | 经济学硕士学位 |
第一导师姓名 | 史亚荣 |
第一导师姓名汉语拼音 | ShiYarong |
第一导师单位 | 兰州财经大学 |
第一导师职称 | 教授 |
题名 | 基于文本挖掘和机器学习算法的股票投资研究 |
英文题名 | Research on stock investment based on text mining and machine learning algorithms |
关键词 | 文本挖掘 机器学习 量化投资 股票市场 |
外文关键词 | Text mining ; Machine learning ; Quantitative investment ; Stock market |
摘要 | 作为资本市场的一个重要组成部分,股票市场在整个金融领域中有着十分重要的地位。一直以来,无论是在学术领域还是在资产管理行业,都有很多人希望能够找到一种能够正确地预测股票市场变动方向的方式。过去人们在进行股票价格走向的预测分析时,大部分是从股票市场自身的角度出发,利用证券价格的历史价格,交易量或者是和公司相关的收益指标来分析股票未来价格的变动,很少会从经济新闻、财经自媒体文章、股市评论等文本信息的角度来分析股票未来的价格变动,而随着互联网特别是移动互联网在百姓生活中的普及,越来越多的投资者开始接触到各种财经新闻,并且以此来辅助自己进行投资,因此研究这些财经文本信息对股市的影响,以及如何从这些文本信息中挖掘出有效的特征来对股票市场的走势进行判断有着重要的现实意义。 本文的研究是利用财经新闻文本数据,从文本挖掘的角度来分析财经新闻对股票价格的影响及利用从文本数据中抽取的特征来对股票市场的未来走势进行预测。与市场上常见的技术性指标、基本面指标等结构化数据不同,文本信息属于一种非结构化的数据,要想让模型能够理解这些信息并从中挖掘出一些有用的特征,必须先对收集到的财经新闻进行转换处理,本文首先运用了Python第三方库jieba来收集到的对每条新闻文本进行切词,将每条文本信息转换成一个个单词列表,再利用自然语言处理工具doc2vec将每条文本信息转换成向量形式,之后通过随机森林算法对数量化的文本特征进行特征选择,从而得到最终的进入模型的特征数据。在回测时,本文将股票预测定义为一个二分类模型,即用现在的文本特征来预测第二天股票市场的涨跌情况,预测标的为沪深300指数。最终比较了三种不同类型的机器学习模型支持向量机(SVM)、XGBoost模型和神经网络在该分类任务上的表现情况,结果表明在将文本信息添加进模型之后,模型对标的的预测性能得到提高,这证明了文本信息的有效性,而在所有的机器学习模型当中XGBoost的表现最优。 |
英文摘要 | As an important part of the financial market, the stock market plays a important role in the entire financial field. For a long time, whether in the academic field or in the field of stock investment, there are many people who are full of great interest in the prediction of the direction of the stock market. In the past, when people predicted the trend of stocks, most of them started from the perspective of the stock market itself, using the historical price of securities prices,trading volume or company-related income indicators to analyze the future price changes of stocks, seldom from economic news, financial self-media articles, stock market reviews and other text information to analyze the future price changes of stocks. With the popularization of the Internet, especially the mobile Internet, the speed of information dissemination continues to increase. Investors can easily use computers or mobile phones to obtain financial information from the Internet to assist themselves in making investment decisions. The impact of the stock market and how to use these text information to analyze and predict the changes of stock prices have very important practical significance. The research of this paper is based on the text information of financial news, from the perspective of text mining to analyze the impact and prediction of financial news on stock prices. Different from structured data such as technical indicators and fundamental indicators
|
学位类型 | 硕士 |
答辩日期 | 2022-05-29 |
学位授予地点 | 甘肃省兰州市 |
语种 | 中文 |
论文总页数 | 58 |
参考文献总数 | 47 |
馆藏号 | 0004192 |
保密级别 | 公开 |
中图分类号 | F83/421 |
文献类型 | 学位论文 |
条目标识符 | http://ir.lzufe.edu.cn/handle/39EH0E1M/32519 |
专题 | 金融学院 |
推荐引用方式 GB/T 7714 | 陆航航. 基于文本挖掘和机器学习算法的股票投资研究[D]. 甘肃省兰州市. 兰州财经大学,2022. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
基于文本挖掘和机器学习算法的股票投资研究(2562KB) | 学位论文 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[陆航航]的文章 |
百度学术 |
百度学术中相似的文章 |
[陆航航]的文章 |
必应学术 |
必应学术中相似的文章 |
[陆航航]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论