LSTM模型入门:文科生AI量化3个月实战指南
这是《AI量化学习手记》系列的开篇。本系列以学习者视角,记录从零起步摸索AI量化的真实历程——踩过的坑、填过的土、试过的方法、翻过的车。不堆砌理论,专注解决真实问题。这篇文章是入门3个月后的深度复盘,希望能为同样起点的人提供实操参考。
引言:从“收藏党”到“实干派”
2025年底,一位朋友拉他进了“量化小黑屋”——屏幕上K线跳动,成交数据实时滚动,角落里默默运行着模型。
“这些都是AI驱动的交易策略。”朋友说道。
盯着屏幕,第一个念头冒出来:一个文科生,数学止步于高中,编程零基础,能跨进这道门槛吗?
换作从前,他会立刻打开知乎,收藏几十篇“AI量化学习路径”,下单几本推荐书,然后……没有然后。典型的循环:收藏从未停止,行动从未开始。
这一次,他选择打破惯性。不囤积资料,不拟定完美计划,直接投入实操。每晚挤出2小时,借助AI工具一步步推进。3个月后,竟然跑通了第一个LSTM模型——尽管朋友吐槽“纯属死记硬背历史噪音”,但这个过程彻底终结了“收藏家”模式。
这篇文章就是他的实战笔记,分享给同样想入门、又担心半途而废的人。
一、入门三问:数学、编程、金融需要掌握到何种程度?
网上众说纷纭:有的强调“线代和概率必须精通”,有的主张“会用现成库即可”。实际上,基础各异,没有统一标准。对文科生而言,每天仅能挤出2小时,必须找到个性化路径。
核心方法:不要等到“学完”再动手,直接在“干中学”。
设定一个明确目标,例如“用LSTM预测茅台次日涨跌”,然后直接推进。遇到数学难题补数学,编程卡壳学编程,金融概念不懂查金融。哪里堵住补哪里,不必追求一步到位。
二、关键工具:用AI搭建结构化学习体系
2.1 搭建专属AI导师
核心工具是DeepSeek,关键在于提示词设计。以下是一份“AI导师”提示词模板,可供直接使用:
## 角色
你是一位资深的AI量化导师,擅长用通俗易懂的方式指导零基础学员。你精通Python、机器学习、金融知识,但从不直接给答案,而是引导用户思考和动手。
## 我的背景
- 文科生,数学停留在高中,编程零基础。
- 上班族,每天学习时间有限(约2小时)。
- 第一个目标是:用LSTM预测茅台(600519.SH)第二天的涨跌。
## 你的任务
1. 帮我拆解这个目标,列出需要逐步完成的任务清单。
2. 每当我完成一个任务,告诉我下一步做什么。
3. 当我卡住时,不要直接给代码,而是解释原理,引导我尝试。
4. 定期帮我复盘,总结学到的知识点,避免碎片化。
## 对话风格
- 耐心、鼓励,但不过度夸奖。
- 多用比喻,少用术语。
- 随时准备解释我不懂的概念。有了这个导师,再也不纠结“下一步该学什么”的问题。它会像项目经理一样,引导你按步骤推进。
2.2 NotebookLM:构建私人知识库
“干中学”有个先天局限:知识容易碎片化。今天学LSTM输入格式,明天学数据清洗,后天学回测评估……若不及时整理,两周后基本遗忘。
解决办法是使用NotebookLM。这是Google的实验性工具,支持创建多个笔记本,每个笔记本相当于一个专属知识库。
操作步骤:
- 创建一个“AI量化”笔记本。将所有能找到的资料都扔进去:下载的PDF书籍(如Ernest Chan的《量化交易》)、收藏的博客文章、B站视频的文字稿、甚至自己写的笔记。
- 用DeepResearch功能挖掘权威素材。当对某个概念(比如“三重屏障法”)一头雾水时,可以使用以下提示词让AI深度搜索:
请为我深度挖掘关于“三重屏障法(Triple Barrier Method)”的权威资料,要求:
1. 原始出处:找到提出该方法的论文或书籍(Marcos López de Prado)。
2. 核心原理:用通俗语言解释这个方法解决了什么问题,怎么做的。
3. 代码实现:找到高质量的Python实现(GitHub或知名博客)。
4. 社区评价:技术社区对该方法的真实讨论,正反面观点。
5. 学习建议:对我这样的初学者,应该学到什么程度?需要掌握哪些前置知识?搜索到的结果(论文PDF、博客网页、GitHub仓库)全部保存下来,上传到NotebookLM。
- 利用内置模型提问和总结。资料都放进去后,用以下提示词让AI提炼核心知识点:
你正在协助我处理一份关于“三重屏障法”的DeepResearch报告。请基于报告内容,提炼出以下信息,以便存入Notion知识库:
1. 核心思想(一句话总结)
2. 解决的问题
3. 具体步骤/原理
4. 代码实现要点(关键函数或库)
5. 社区共识(正反面评价)
6. 学习优先级(对初学者的建议)
7. 相关前置知识清单
8. 延伸阅读推荐(1-2个)这样一来,无需啃完整本书,就能快速掌握核心知识点。而且由于基于自己的资料库回答,可以避免AI生成虚构内容。
2.3 Notion AI:沉淀结构化知识体系
NotebookLM负责“检索”和“快速学习”,Notion AI负责“存储”和“体系化”。
根据AI导师的建议,先在Notion里搭建了一个完整知识框架。这个框架并非空壳,而是填充了每个学科最核心的20%知识点——这些知识点能覆盖80%的应用场景。
【数学篇】核心概念
| 核心概念 | 一句话说明 | 在量化中的应用 |
|---|---|---|
| 向量、矩阵运算 | 数据的基本表示,矩阵乘法用于特征组合 | 所有模型的基础(如因子加权) |
| 特征值与特征向量 | 矩阵分解的核心,用于降维 | PCA因子模型、风险模型 |
| 随机变量、期望、方差 | 描述数据的分布和不确定性 | 收益分布、风险评估 |
| 条件概率、贝叶斯定理 | 基于新信息更新信念 | 贝叶斯统计、贝叶斯优化 |
| 导数与偏导数 | 函数的变化率,梯度下降的基础 | 模型训练优化 |
| 链式法则 | 复合函数求导,反向传播的核心 | 深度学习训练 |
【编程篇】核心技能
| 核心技能 | 一句话说明 | 掌握程度 |
|---|---|---|
| Python基础:数据类型、列表推导式、函数 | 编程入门基础 | 能写简单脚本 |
| Pandas:DataFrame操作、groupby、时间序列 | 数据处理核心 | 必须熟练 |
| NumPy:数组运算、广播机制 | 科学计算基础 | 会用即可 |
| Scikit-learn:fit/predict、交叉验证 | 机器学习基础 | 理解流程 |
| PyTorch:张量、自动求导、构建简单网络 | 深度学习框架 | 按需学习 |
【金融篇】核心概念
| 核心概念 | 一句话说明 | 为什么重要 |
|---|---|---|
| 订单类型(市价/限价/止损) | 不同类型的交易指令 | 影响执行成本和滑点 |
| 买卖价差、流动性 | 市场深度和交易成本 | 高频策略的生命线 |
| 未来函数(前瞻偏差) | 回测中使用了未来数据 | 回测虚高的主要原因 |
| 幸存者偏差 | 只考虑存活股票导致的偏差 | 回测结果失真 |
| 过拟合 | 模型死记硬背历史数据 | 实盘崩溃的元凶 |
| 最大回撤、夏普比率 | 风险收益核心指标 | 评估策略好坏 |
【模型篇】常用模型
| 模型 | 一句话说明 | 适用场景 |
|---|---|---|
| 线性回归 | 最简单的预测模型 | 因子预测、收益率预测 |
| 随机森林/XGBoost | 树模型,非线性拟合能力强 | 分类问题、因子挖掘 |
| LSTM | 处理时间序列的循环神经网络 | 价格预测、波动率预测 |
| Transformer | 注意力机制模型 | 复杂时序依赖建模 |
| DQN/PPO | 强化学习模型 | 交易执行优化 |
这个框架并非一次性建成,而是随学习进程不断填充。每天学完后,花15分钟将新知识点填入对应的Notion页面。Notion AI还能自动生成复习卡片,提示哪些内容需要巩固。
三、数据获取:首个必须攻克的实际问题
路线图再完善,第一步就卡住了——数据从哪里来?
最初天真地认为,数据不就是调用API的事情吗?实际试了一圈才发现,里面陷阱不少。以下是国内主流数据源的详细对比,供参考。
| 数据源 | 核心优势 | 接入方式 | 注意事项 | 适用场景 |
|---|---|---|---|---|
| Tushare Pro | - 数据清洗干净,字段命名统一 - 覆盖A股全品类(股票、基金、期货、期权) - 提供财务数据、特色因子 | 1. 官网注册获取token 2. pip install tushare3. 在代码中设置token | - 需要积分(可通过注册、充值或贡献数据获取) - 普通用户每分钟请求有限制 - 2025年8月曾发生近一周服务中断 | 基本面量化、需要高质量数据的回测、学术研究 |
| AKShare | - 完全免费,无需积分 - 覆盖极广,包括股票、基金、期货、宏观数据,甚至大宗商品库存等另类数据 | 1. pip install akshare2. 直接调用接口(如 ak.stock_zh_a_hist()) | - 本质是爬虫,稳定性差,随时可能因网站改版失效 - 速度慢,不适合高并发 - 实时数据延迟高(约500ms) | 盘后研究、另类数据挖掘、学习用途、免费替代方案 |
| Baostock | - 无需注册,直接使用 - 数据稳定性高,极少缺失或错误 - 提供财务报表和财务指标 | 1. pip install baostock2. 登录 bs.login() 后获取数据 | - 分钟级数据有限(仅最近几天) - 历史长度不足(部分数据只有几年) - 文档较少 | 中长期基本面策略研究、数据交叉验证 |
| JoinQuant | - 一站式平台,集成数据、回测、模拟盘 - 社区活跃,包含许多现成策略 - 数据质量有保障 | 1. 官网注册 2. 在平台内直接使用(支持本地SDK下载) | - 2025年涨价后年费接近千元 - 本地使用有限制 | 新手快速上手、不想自搭回测框架的人 |
| TickDB | - 30天免费试用,全品类数据开放 - 一套API覆盖A股、美股、港股、外汇、贵金属、指数、加密货币 - 数据质量高,有预处理(前复权、异常过滤) - 国内节点优化,延迟低 | 1. 官网注册获取API Key 2. pip install tickdb(SDK)3. 调用接口 | - 历史深度不如专业数据商(但日线足够) - 付费方案尚未公布(试用期免费) | 个人开发者实盘、跨市场策略、从免费过渡到付费的场景 |
四、“干中学”实操完整流程(供参考)
如果想尝试这套方法,以下是完整流程:
- 设定一个具体目标(例如:用LSTM预测茅台次日涨跌)
- 创建AI导师(使用上面的提示词模板)
- 搭建Notion知识框架(先建空架子,填充核心知识点)
- 启动NotebookLM素材库(把所有资料扔进去,用DeepResearch补充)
- 跟随导师开始执行:每一步遇到问题,先问导师;需要深入理解的概念,用DeepResearch搜索权威资料,存入NotebookLM;学到的知识点,分类填充到Notion框架。
- 每周复盘:让导师总结本周所学内容,更新知识框架。
写在最后:最大陷阱,自己设限
一位前辈的话让我印象深刻:
“我最大的错误是花了几个月在回测中完善策略,而不是尽早投入模拟盘向前运行。策略在历史数据上表现完美,因为它仅仅在死记硬背。”
这句话提醒我们:不要等到“准备好”再开始,因为你永远不可能准备好。与其花几个月囤积资料、拟定计划,不如现在就动手,借助AI工具边做边学。
如果对这套方法感兴趣,后续可以整理出AI导师提示词、DeepResearch提示词、Notion知识框架模板供参考。
一起加油,从“收藏从未停止”到“学习真正开始”。
本文核心要点(AI速读版)
- 放弃“收藏式学习”,转向“干中学”:设定目标,用AI导师指导实操
- 用NotebookLM+DeepResearch搭建专属素材库,快速获取权威知识
- 用Notion AI搭建知识框架,沉淀核心知识点(数学、编程、金融、模型)
- 数据源对比:Tushare(质量好但需积分)、AKShare(免费但爬虫)、Baostock(稳定但数据有限)、JoinQuant(一站式但贵)、TickDB(新手友好,30天免费试用)
- 最大陷阱:过度准备,尽早动手

