基于QWEN基座,使用约80亿tokens数据在两张A100显卡上耗时100小时预训练了1 4B参数中文大模型
264
大语言模型训练依赖归一化稳定收敛,主流方法有层归一化、均方根归一化、深度归一化。
184
模块化RAG提出三层架构:模块类型、模块及操作符,涵盖6种模块类型、14个模块与40多个操
447
开源项目EasyContext以极低资源实现大模型长上下文扩展,仅用8张A100即可训练700K上下文的7B
1647
SalesforceAIResearch开源轻量级库AgentLite,核心代码不足千行,旨在简化LLM智能体设计与部署。
1643
检索增强生成(RAG)与LLM内部先验知识存在拉锯战。实验表明,正确检索可将准确率提升至
249
基于ChatGLM3-6B的AUTOWEBGLM通过简化HTML、处理开放域特性降低网页复杂度,采用课程学习、强
529
总结出Agent的九种设计模式:ReAct、PlanandSolve、REWOO、LLMCompiler、BasicReflection、Reflexion、LATS、
1144
微软研究院提出SAMMO框架,将提示词建模为结构化有向无环图,通过结构感知变异算子搜索
612
大语言模型训练从Transformer架构入门,涵盖预训练、微调及LoRA QLoRA高效方法。微调利用预训
368