在线大数据 / AI竞赛实训平台深度技术解析 | | 第五期社群图文直播
12月24日晚,智领云第五次社群图文技术直播如约而至。本次直播由智领云云平台部门经理Jason为大家分享BDOS在线大数据/人工智能竞赛及实训解决方案,主要内容包括行业现状和痛点,BDOS在线大数据/人工智能竞赛及实训解决方案的具体介绍,以及对成功的行业落地案例的分享。
一、行业现状与痛点
当前的大数据技术已经趋于成熟,在数据存储、数据分析、数据呈现和数据应用等方面,已经形成了一整套技术框架,相关的技术生态也在不断的完善当中。但不可否认的是,企业以及教育行业在利用大数据时,仍面临着以下诸多的困难。
1、高成本、长周期:从零搭建大数据/人工智能体系用于培训、比赛或者企业内部实验,需要经过选型、立项、管理等复杂过程,效果难以立竿见影;
2、大数据专业团队难寻:大数据及人工智能组件多、依赖复杂、配置繁复,在企业/机构开展核心业务之前,需要先花大力气组建大数据的专业团队,难免造成商业重心偏移;
3、系统僵化、难维护:传统企业自建大数据平台无法智能进行集群动态运维和资源算法分配的管理,对稳定性、体验性、按需扩展性要求高的实训、比赛、实验等场景难以对应支持;
4、模式单一,难通用:传统业务模式依赖手动单一组件的安装和使用,不能通过即开即用的方式任意组合大数据组件和数据科学工具来进行课程、赛制的研发与迭代,由此限制了大数据整体认知价值的提升。
二、BDOS在线大数据/人工智能竞赛及实训解决方案,可以解决哪些问题?
针对以上痛点,BDOS在线大数据/人工智能竞赛及实训解决方案可以帮助教育行业以及企业摆脱种种困难。
首先,对于科研机构来说,该解决方案能为科研机构提供易用、环境稳定、持续升级的在线机器学习及人工智能实验教育环境和完整服务,保证研究成果易分析,实验数据全防护。
其次,对于高等教育及大专院校,该解决方案能为高校、大专院校提供即开即用的大数据人工智能课程的实训体系,模拟竞赛环境。
最后,对于企业来说,可以为企业内部员工提供大数据人工智能学习与培训的环境。
三、BDOS在线大数据/人工智能竞赛及实训解决方案介绍
该解决方案是一套企业、高校和科研教学业务的大数据/人工智能整体认知提升及比赛解决方案。该方案帮助客户快速搭建多租户大数据及人工智能使用环境,提供协同式在线数据科学研发、实验及管理的能力,包括全面的大数据/人工智能实战课程,竞赛管理,研发体系,灵活集成各种新型工具,提供在线编程、研发、集成环境,满足企业、高校和科研教学业务需求。
四、方案构成
基于以上行业现状,通过BDOS形成一套在线大数据/人工智能竞赛及实训解决方案,以解决和满足目前行业存在的痛点和需求。解决方案的架构图如下:
自下而上来看,这套解决方案包括以下层面:
- IT基础设施层(IaaS):BDOS支持搭载在客户的公有云、私有云或者混合云环境上。
- 应用云平台(PaaS):支持对大数据平台及云原生应用的统一调度,统一运维,将资源的分配粒度从主机级降到应用级,不同机构和不同应用在资源隔离的保证下安全共享数据以及资源池,增加系统管理的灵活性,提高资源使用率。
- 容器化大数据平台:提供大数据系统(Hadoop、Hive、Kafka、Spark)及应用敏捷发布和按需弹性集群扩展、标准化的大数据组件及应用(ETL、机器学习、人工智能)的开发/测试/生产环境、高资源利用率和多租户数据隔离能力。
- 数据集成开发平台:提供数据集成、数据仓库建设、数据开发、数据服务、应用调度和全局多租户管理能力。
- 协作式数据科学分析及实验平台:提供数据科学分析工具箱、数据接入、模型管理、算法库管理、协作开发、竞赛、实验项目管理能力。
- 大数据及人工智能实训平台:提供各种大数据、人工智能和机器学习实训课程环境及内容管理能力。
- 业务层面:基于实验和实训平台,业务应用包括课题规划、教学管理、课程管理、课件管理和成绩评估等。
该解决方案提供以上这些开箱即用的平台体系,我们再回过头去看前面列举的行业痛点和需求,都可以得到有效地解决和满足。 五、具有代表性的成功案例分享1、中软协人工智能应用挑战赛背景介绍 为了推动软件与智能应用产业的发展,促进 IT 类专业技术人才培养,进一步落实中国软件行业校园招聘与实习公共服务平台精准求职、精准招聘的目标,中国软件行业协会智能应用分会发起了2020人工智能应用挑战赛,旨在发挥各自的资源优势、渠道优势、经验优势,将高校招录研究生和企业招聘工程师的行业标准融入大赛,共同推动高校人才培养与就业,推动青少年计算机基础学习,培养青少年对计算机学科的兴趣,持续为软件行业输送具有创新能力和实践能力的 IT 人才,适应人工智能产业的快速发展,对接经济社会人才需求,促进学生在人工智能研究与设计、开发与应用方面的创新能力培养,促进相关专业的应用型人才培养与课程体系变革,促进创新教育范畴的产教融合、产学协同育人。 方案设计挑战赛的基本信息如下:
- 比赛分为两个阶段,初赛阶段并发用户数最大约2000人,决赛阶段并发用户数最大约200人
- 初赛阶段每个用户需提供2核/8G内存的CPU算力资源,决赛阶段每个用户需提供8核/32G内存/1GPU的算力资源
- 比赛持续15天,用户的日活跃时间不固定,期间任意时间选手均可登录平台进行算法开发和提交运行
- 比赛需提供Python、TensorFlow、Spark、R等算法开发的环境
- 比赛平台需在公有云环境搭建,面向公网开放
方案落地的难点有: 1、公有云成本控制:
- 如果按照全量用户来购买资源,成本过高(初赛阶段资源共需63台64C 256G机器 , 一周近15万;决赛阶段资源共需200台8C 32G GPU+25台64C 256G机器,一周近30万)
- 考虑用户并发量周期性波动,按照一定比例来购买包月机器和按量付费机器(如何快速买入和释放)
2、运维人力有限:
- 如何保证集群运行稳定
- 如何支撑集群弹性伸缩(手动or自动)
- 初赛和决赛之间如何快速切换环境
方案落地 最终,我们通过使用BDOS人工智能竞赛及实训解决方案案在公有云环境搭建了本次挑战赛的赛事平台并保证了赛事的成功举办,以下是一些数据统计:
- 平台管理了90+公有云节点,运行了600+应用Pods,运行了1000+容器实例,创建了3000+的持久化存储卷,比赛期间平台稳定运行
- 决赛阶段集群资源利用率达到70%+,集群算力利用率高
- 共触发了400+的集群弹性伸缩活动,基础设施弹性伸缩能力强,弹性成本占比高
- 整个比赛项目只用1位云工程师运维支撑,运维成本低
从这个案例中,我们看到了BDOS人工智能竞赛及实训解决方案的稳定健壮,弹性伸缩,灵活扩展和按需使用等优势。
2、北京医保局医保数据竞赛背景介绍 北京医保局希望通过举办本次竞赛,鼓励具备人工智能、大数据分析与挖掘等“高精尖”科技的高新技术企业、高校、研究机构等参与医疗保障管理服务,将成熟的创新科技技术转化为实践;加强政商战略合作,优选一批符合医保创新发展需要的新技术纳入医疗保障管理服务场景应用示范,不断完善该市医疗保障管理服务创新能力体系;促进“高精尖”产业发展,推进创新技术转化为实践产品并落地实施,形成线上线下融合、相互促进发展、规范安全高效的医保与高科技产业共同发展格局。 方案设计 数据竞赛的基本信息如下:
- 比赛有12个参赛队伍,分为赛题A和赛题B,两道赛题得分综合计算最终成绩
- 赛题A数据集量级约为10GB,每个用户需分配16核/128GB内存算力;赛题B数据集量级约为600GB(压缩前),每个用户需分配48核/256GB内存算力
- 赛题A、B均需支持Spark计算引擎,赛题A采用Spark本地运算提交模式,赛题B采用Spark集群运算提交模式
方案落地的难点有两方面: 1、实施环境:
- 客户私有云环境且封闭网络,所有系统需要从零搭建,隔离环境下镜像构建(选手现场提出了安装三方算法库的需求)困难
- 虚拟化平台由三方提供,大数据环境搭建后的性能保证是不确定的
2、数据处理和资源公平性:
- 由于赛题B的数据集是上百GB级别,本地算力计算无法满足要求(没法提供256GB内存的单机且不现实),必须提供集群模式的Spark运行环境
- 多个参赛团队共用一个大数据集群,需要确保计算资源公平性和数据安全,避免单个团队无限制使用集群算力而其他团队无法拿到资源的情况
- 数据需要脱敏和抽样,但客户侧没法独立完成,只能导入到大数据系统中后再做数据处理
方案落地 最终,我们的BDOS在线大数据/人工智能竞赛及实训解决方案在这个项目中成功落地,从零搭建到比赛开始,该项目实施周期约3周左右,实施和运维人力投入约2人。 其中,BDOS容器化大数据平台提供了开箱即用的Hadoop、Hive和Spark的主流大数据组件,通过BDOS数据集成开发平台,我们的实施人员配合客户侧能够高效地完成数据采集、压缩、脱敏和抽样,利用BDOS的数据安全和多租户特性,为每个比赛团队分配了指定的计算资源和独立的数据存储空间,保证了集群模式计算的资源公平性和数据安全性; 各参赛团队的选手通过上层的协作式数据科学分析及实验平台可以快速获取处理后的数据集,可以很方便地进行在线编写、调试和提交Spark程序。 五、BDOS在线大数据/人工智能竞赛及实训解决方案的优势1、完整的产品体系:可以提供计算机基础、数据库、储存、大数据、人工智能、机器学习以及大数据安全等任意IT/大数据/人工智能环境,并提供持续不断地跟进技术革新、在线调整和环境升级设置; 2、大数据平台能力:提供了大数据收集、储存、分析等数据服务,以及可视化的一站式平台,帮助客户掌握大数据核心能力,利用大数据分析不断迭代自身商业模式; 3、按需建设及使用:快速按需实施,集群弹性扩展以应对突发的实训、科研及比赛计算场景;同时在需求淡季能自动降容来确保资源使用不浪费; 4、优秀的性能:夯实的系统基础,提供高可用且性能优秀的平台;能够应对随时增长的应用容量,并且保证高效的资源使用率,完善的多用户管理,细粒度的资源共享,充分利用硬件资源; 5、协同及灵活的横向扩展:数据科学家协同平台,能轻松扩展至TensorFlow、Pytorch、Zeppelin的学习和实验平台;同时对新组件/系统的支持也非常的轻松,Presto、Cassandra、MongDB等都能够轻易在原有的解决方案上进行扩展。 6、安全稳定:提供全程操作审计和监控;用户安全组配置;统一授权/验证,满足企业核心数据的安全诉求,避免数据资产泄露,保障安全与可用性。 六、总结 通过本次分享,我们介绍了BDOS在线大数据/人工智能竞赛及实训解决方案及其在行业成功落地的案例,让大家对于相关行业的方案落地有了一定的了解,以下为BDOS在线大数据/人工智能竞赛及实训解决方案的优秀落地案例,欢迎大家点击阅读:
留言
评论
${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}}说 · ${{item.date.slice(0, 10)}} 回复
暂时还没有一条评论.