当容器遇到大模型 智领云扩展数据流水线释放文档的生产力

by June 2024-07-02

基于这样的经历,彭锋回国创建了智领云,专注于云原生DataOps,围绕数据开展业务。不过,当大模型出来之后,彭锋有了新的思考。

作为智领云联合创始人&CEO,彭锋与人工智能和数据有着不解之缘。当初彭锋读博士的时候,第一门课就是神经网络,第一个课程项目是关于自然语言的问答,当时还是那种基于规则式的知识库回答问题,能力比较有限。后来,彭锋的第一份工作是在搜索引擎Ask.com,其特色功能是回答人们用自然语言提问的问题。

智领云联合创始人&CEO彭锋

从Ask.com离开后,彭锋去了Twitter,负责大数据平台的建设。“云原生是企业分布式IT架构的必由之路。这点美国的确走在前面,中国在云原生方面的探索也是最近几年的事情。”彭锋说。

基于这样的经历,彭锋回国创建了智领云,专注于云原生DataOps,围绕数据开展业务。不过,当大模型出来之后,彭锋有了新的思考。

从数据流水线到文档流水线

我们知道数据的价值是为了提升企业的运营和管理效率,但是这并不容易实现,比如需要专门的BI系统,包括专业的数据专家才能实现数据管理等工作。

当大模型出现,数据的使用逻辑发生了巨大变化,我们可以通过自然语言直接与数据进行交互。在彭锋看来,大模型是“大脑”或者“CPU”,需要“五官”进行信息的获取。这时,围绕数据的周边生态必不可少。“大模型是执行决策,需要源源不断的数据供给。智领云的角色便是如何让大模型在云原生容器环境下更好地运行。”

在这样的思考下,智领云延伸业务发展,为大模型提供完善的数据处理能力,扩展自身的DataOps布局。因为云原生的标准化、可扩展等特性本身就非常适合大模型。

彭锋解释说,智领云把原来的云原生的Data Pipeline能力扩展,在原来的数据流水线基础上,加上了文档处理流水线。而且智领云利用大模型的能力提升文档流水线以及数据流水线的能力,更好地服务客户。

文档的重要性不言而喻,数据是企业运营情况的实时或者历史的一种结构化展示,而文档是企业内部知识和能力的数字化承载。以前的文档搜索是基于关键字,不能进行语义的搜索,回答不了问题,很难产生很大的价值。在大模型出现之后,我们第一次有机会能成体系地将文档引入企业智能化运行的体系中,真正转化为生产力。

释放文档的生产力

大模型虽然具有强大的知识压缩能力,但是“幻觉”现象不可避免,大模型并不能回答知识的来源,这在企业级应用场景中是不允许的。毕竟对于行业客户而言,大模型需要与企业特有的数据结合。

这时,RAG(Retrieval-Augmented Generation)技术问世,企业可以将相关文档放到上下文里面,大模型就能够根据上下文的文档来回答你的问题,这有点类似企业级的语义搜索引擎。

RAG系统需要一个完整的文档处理流水线来持续转换文档,划分文档为合适的文本块,选择合适的Embedding模型和向量数据库,然后使用Prompt Engineering来构建合理的问题提交给大模型。

以前,企业是通过SQL处理结构化数据来回答用户的问题,而现在借助大模型和RAG,企业可以处理非结构化数据,建立自己的知识库,并可以控制访问权限,避免“幻觉”。

彭锋表示,智领云把数据处理流水线扩展到文档处理流水线,在云原生的环境下,将企业级的文档生成一种知识库,基于知识库能够精准地回答客户的各种问题。“我们现在的场景更多是在企业内部使用,在大模型和文档处理流水线的加持下,企业可以打造基于知识库的智能助手。”

比如在运维或者巡检场景,通过知识库能够告诉相关人员问题的原因和处理方式。以往这种场景,我们是依靠收集专家的经验来建设专家系统,现在通过整理相关文档,也就是数据清洗和治理,实现更高质量的数据“喂养”给私有的大模型。

在这一实现过程中,其实挑战还是挺多的,比如文档按照语义分解成相应的格式,还有文档的更新。智领云利用大模型技术增强了文档流水线,来解决这些问题。

容器中的大模型

众所周知,私有部署大模型非常繁琐,而且经常报错。搭建模型流水线的一个主要挑战是管理和维护各种依赖项的兼容性,包括Python版本、第三方库版本、CUDA版本以及硬件和操作系统的兼容性。这些因素共同构成了一个复杂的环境,经常导致版本冲突和不兼容的情况。

此外,如何将各个组件的配置统一管理起来,不用重复配置,不用手动配置各种端口以避免冲突,动态管理依赖,也是常见需要解决的问题。除了应用运行之外,数据在这些组件之间的流动也需要完善的管理以保证数据的正确性以及数据任务的及时完成。

在彭锋看来,采用云原生的容器环境来部署大模型,可以实现随意切换和随意组合的效果,毕竟容器是标准化环境,保证架构的合理性和这种组合升级或者是管理的方便性。将这些组件以容器的形式实现标准化发布,使用类似于Kubernetes这样的资源调度平台来管理这些组件的运行,可以大大降低大模型流水线的使用门槛,提高大模型应用发布和运行的效率。

“我们应该以云原生,容器化,服务化,标准化的方式建设大模型流水线,允许在不同的私有发布,公有发布的大模型之间随意切换,选择最适合我们应用场景和价格最合适的大模型使用模式。”彭锋最后说。

大模型带来了很多新的机会,智领云最新推出的全新产品–自主研发的LLM-EDS系统,即利用大模型技术来重塑文档管理系统,提高企业处理文档的效率和准确性。让用户用自然语言提出问题,得到具体的答案,获得一种让电脑来辅助思考的能力。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.