云

云雀大模型

通用大模型已备案

访问官网

备案单位北京抖音信息服务有限公司

所属地区北京市

备案时间2023/8/31

备案编号Beijing-YunQue-20230821

AI介绍

云雀大模型是由北京抖音信息服务有限公司开发，诞生于北京市的通用大语言模型，已于2023年8月31日完成生成式AI服务备案，备案编号为Beijing-YunQue-20230821，是我国合规落地的新一代通用基础大模型产品，依托字节跳动在内容生态、计算基建和大规模AI训练领域的长期积累，面向B端开发者、企业客户以及C端用户提供全场景的通用智能能力支撑。

在生成式AI快速渗透千行百业的行业背景下，通用大模型的性能、落地成本和场景适配能力，已经成为决定AI技术能否真正赋能产业升级的核心指标。云雀大模型自开发之初就锚定了“通用能力打底，场景能力延伸”的研发方向，覆盖了通用大模型的全维度核心功能：首先是基础自然语言处理能力，支持多轮流畅对话、复杂文本理解与生成，能够完成文案撰写、信息总结、知识科普、逻辑推理、代码编写等基础需求，针对中文语境的语义理解、文化常识适配能力经过多轮优化，适配国内用户的使用习惯；其次是开发侧支持能力，开放了灵活的API接口、微调工具和部署方案，开发者可以基于云雀大模型快速定制垂直领域智能应用，降低大模型应用的开发门槛；此外，云雀大模型还支持多模态输入输出扩展，可对接图文处理、语音交互等上层应用，满足多元化的交互需求。

技术层面，云雀大模型依托字节跳动自研的大规模分布式训练框架，基于万亿级 tokens 的多领域公开语料与业务语料预训练而来，通过动态稀疏注意力机制、指令微调对齐和人类反馈强化学习（RLHF）优化，在保持模型推理效率的同时，大幅提升了输出内容的逻辑性、准确性和实用性。相较于同参数规模的通用大模型，云雀大模型优化了长文本处理能力，支持十万字级别的长文档上下文理解，能够完整处理整本书籍、完整项目文档的信息梳理与分析需求；同时针对国内网络环境和企业部署需求，支持公有云调用、私有部署等多种部署方式，在保证数据安全的同时，平衡了推理成本与性能表现，模型输出的幻觉率经过多轮迭代优化，显著低于行业平均水平。

丰富的技术能力也让云雀大模型覆盖了多元的应用场景：To C端可接入内容创作、智能问答、个人助手等应用，帮助普通用户提升信息获取效率和内容生产效率；To B端可适配企业智能客服、办公自动化、内容审核、法律文书梳理、金融研报分析、教育个性化辅导等多个垂直领域，例如在电商场景中，可基于品牌商品知识库自动生成商品文案、回复消费者咨询；在教育场景中，可辅助教师完成教案生成、习题批改，为学生提供个性化的知识点讲解；在文创领域，可依托抖音内容生态的优势，辅助创作者完成脚本撰写、热点提炼、内容二次创作，匹配短视频内容生产的需求。

作为字节跳动布局通用大模型领域的核心产品，云雀大模型凭借合规备案的落地优势、贴合国内市场需求的技术优化，已经成为国内大模型生态中重要的基础能力支撑，为推动AI技术从技术概念走向产业落地提供了可落地的成熟方案。