为依法保障用户对知网研学AI功能的算法及模型服务的基本原理、目的意图和主要运行机制等的知情权,告知用户知网研学AI功能提供的算法及模型服务的备案情况,我们制定本《知网研学AI算法及模型备案公示说明》,帮助用户了解在使用知网研学AI功能的过程中我们如何通过算法及模型技术向用户提供信息和服务,充分保障用户的合法权益。
知网研学AI功能接入了知网中华知识大模型算法-1、知网中华知识大模型算法-2、DeepSeekChat求索对话生成算法、中华知识大模型、通义千问大语言模型、求索对话DeepSeek Chat模型。我们在下文中将对知网中华知识大模型算法-1、知网中华知识大模型算法-2、DeepSeekChat求索对话生成算法、中华知识大模型、通义千问大语言模型、求索对话DeepSeek Chat模型的备案情况分别进行公示说明。
一、知网中华知识大模型算法-1
1.算法基本原理
知网中华知识大模型算法通过对大规模训练数据进行预训练,建模了大量蕴含在自然语言中的知识,在预训练模型的基础上采用了有监督微调、人类反馈的强化学习和Prompt机制等技术,使得大模型可以通过对话方式提供合适的内容,构建一种具备知识增强、检索增强和对话增强技术特色的模型。
2.算法运行机制
(1) 客户端输入:输入文本形式的提问。
(2) 输入预处理:清理和标准化输入内容,例如去除不必要的字符。
(3) 内容审核:使用文本审核模型对输入进行过滤,确保无违规内容。
(4) 问题解析与回答生成:大模型根据用户提问生成回复。
(5) 输出内容过滤:对生成内容进行风险审核,确保内容合规。
(6) 输出格式化:将回复格式化为适当的文本形式。
(7) 算法结果输出:展示问答结果。
3.算法应用场景
知网研学(网站)、智能公文(网站)
4.算法目的意图
(1)辅助完成公文的格式编排、内容比对等任务,自动化处理琐碎工作,减轻工作人员的负担,同时保证公文内容符合规范和标准。
(2)通过算法实现文献的精准问答、文献综述的自动生成、文献阅读报告的自动撰写等功能,帮助用户梳理研究脉络,发现研究空白点,提高研究效率。同时,提供学术规范知识库问答和单篇文章对话等功能,辅助用户规范写作,提高文献阅读效率。
5.算法备案编号: 网信算备110108054528501240035号
二、知网中华知识大模型算法-2
1.算法基本原理
知网中华知识大模型算法通过对大规模训练数据进行预训练,建模了大量蕴含在自然语言中的知识,在预训练模型的基础上采用了有监督微调、人类反馈的强化学习和 Prompt 机制等技术,使得大模型可以通过对话方式提供合适的内容,构建一种具备知识增强、检索增强和对话增强技术特色的模型。
2.算法运行机制
(1) 客户端输入:输入文本形式的提问。
(2) 输入预处理:清理和标准化输入内容,例如去除不必要的字符。
(3) 内容审核:使用文本审核模型对输入进行过滤,确保无违规内容。
(4) 问题解析与回答生成:大模型根据用户提问生成回复。
(5) 输出内容过滤:对生成内容进行风险审核,确保内容合规。
(6) 输出格式化:将回复格式化为适当的文本形式。
(7) 算法结果输出:展示问答结果。
3.算法应用场景
文献知识问答、文本摘要、智能写作等。
4.算法目的意图
以知识为中心,服务于学术研究等知识密集型智能知识服务场景,典型的业务场景如文献知识问答、文本摘要、智能写作等。旨在帮助学术研究人员更好地处理海量学术数据、提取有价值的信息、提高研究效率和准确性。
5.算法备案编号: 网信算备110108054528501240043号
三、DeepSeekChat求索对话生成算法
1.算法基本原理
DeepSeek求索对话生成算法系以Transformer架构为基础,自主研发的深度神经网络模型。模型基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务。
2.算法运行机制
运行机制为用户输入文本格式的自然语言数据,产品经过预处理和违法不良信息审核后,由算法模型根据语言的统计规律、知识和对齐要求进行推理和计算,通过预测下一个最佳词语来实现文本生成,最后产品将经过审核的生成内容输出返回给用户,以响应用户的指令。
3.算法应用场景
DeepSeek产品服务(网址:https://www.deepseek.com/)以及App小程序、API等。
4.算法目的意图
DeepSeekChat求索对话生成算法旨在通过智能问答、代码生成等应用场景为用户提供创作、工作和提效的工具。高效便捷地帮助人们获取信息、知识和灵感。
5.算法备案编号: 网信算备330105747635301240017号
四、中华知识大模型
(1)模型应用场景:主要应用于教育、科研、政务、医疗等知识密集型行业的智能化赋能。
(2)模型备案编号: Beijing-ZhongHuaZhiShi-202404280011
五、通义千问大语言模型
(1)模型应用场景:智能对话、知识问答、高效创作及办公辅助等。
(2)模型备案编号: ZheJiang-TongYiQianWen-20230901
六、求索对话DeepSeek Chat模型
(1)模型应用场景:智能对话、知识问答、高效创作及办公辅助等。
(2)模型备案编号: Beijing-DeepseekChat-202404280016