首 页 | 要 闻 | 财 经 | 科 技 | 理 财 | 社 会 | 教 育 | 房 产 | 汽 车 | 旅 游 | 娱 乐 | 健 康
家 居 | 女 性 | 创 业 | 食 品 | 文 化 | 维 权 | 商 讯 | 城 市 | 生 活 | 商 业 | 营 销 | 游 戏

当前位置 > 主页 > 社会 >
正阳恒卓首席科学家高凯:构建高效可靠的智算中心是一个系统工程
时间: 2025-01-06 13:47 来源:新浪科技
【字号 】 【RSS订阅】 【打印】 【关闭

  新浪科技讯 1月6日上午消息,近日举办的第二届人工智能产业应用大会上,北京正阳恒卓科技有限公司(下称正阳恒卓)首席科学家高凯结合公司智算中心建设领域实际实践,提出AI基础设施(即AI Infra)建设运营中面临的高效性和可靠性挑战,并介绍了为更好地服务人工智能产业应用正阳恒卓做出的相关技术创新。

  高凯指出,客户往往期望AI任务可以高效利用智算中心提供的硬件资源,将集群规模增大、硬件升级充分转化为性能提升。但现实是,对于大规模分布式AI任务来说,单纯提高机器数量和升级计算芯片能力后,性能并不容易达到线性提升。

  高凯认为这背后的原因是“大规模分布式AI任务资源需求巨大,容易造成碎片化资源闲置,并对调度系统性能带来更高要求;此外,并行方法和通信顺序也会影响分布式AI任务的效率”。

  为解决上述问题,高凯指出:“大规模分布式AI基础设施,必须具备高效的系统容错能力,以及丰富的并行策略。”他表示,“为解决上述问题,目前国内外的一些大厂早已支持三维并行策略,甚至正在推进五维并行策略。”

  此外,高凯还指出,“在建设智算中心过程中,客户往往期望AI大模型能够在智算中心中可靠地运行,但现实是,AI系统中的各个组件都可能出现故障并导致AI任务中断或失败。”

  这背后的原因是,“AI任务依赖专用硬件,和传统计算集群在能源、产热、工作条件等方面存在差异;此外,主流AI并行框架采用同步方式运行,存在单点故障问题,传统云平台的容错能力并不适用,最终导致故障原因多样,纯用户视角难以准确定位问题。”

  “大规模分布式AI系统的容错能力是AI系统稳定运行的基础,已经成为全球AI大厂开始竞相关注的问题。”高凯表示。

  结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验,高凯指出,“建设高效可靠的Al Infra是一个系统工程,可靠性和高效性都必须遵循从硬件到软件系统性开发的原则,而且可靠性和高效性的技术应该被封装,从而尽可能对用户透明”。

  他将Al Infra的构建分为智算中心建设、Infra服务运营、AI开发部署框架以及AI应用开发四个层级。并进一步指出,区别于大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发,绝大部分小型企业往往不具备这样的经济能力和人才储备。为了助推人工智能产业应用的发展,提供高效可靠的AI Infra是智算中心未来需要具备的基本能力和发展趋势。

  据高凯介绍,为能够让AI Infra能够普惠更多的人工智能产业应用企业,正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI Infra基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计,希望吸引更多相关行业的企业和开发者共同组建技术生态:让用户的模型开发、部署、应用能够在不同的算力环境中实现无感的迁移,而AI Infra企业则可以通过技术创新提供高效性和可靠性的增值服务。

  据高凯介绍,正阳恒卓成立于2015年4月,目前已服务超300家企业客户,是英伟达认证的精英级合作伙伴,已连续两年成为NVIDIA Networking NPN 业绩第一名。(文猛)

【领先财经网-www.591news.com.cn
    正阳,恒卓,首席,科学家,高凯,构建,高效,可,
    分享组件,请点击:
    推荐新闻:
    ·微博V+圈子:开启博主轻量化社群变现时代
    ·武汉光谷空轨今日开通 票价出炉
    ·世界气象组织官宣厄尔尼诺再现 有望突破2016年极端高温纪录
    ·美国 iPhone 用户画像:年轻人并不急于维修 / 换新手机
    ·中石油王者归来!
    ·美联储与欧洲五大央行联手救市
    ·上海如何应对社会面出现零星散发病例?回应来了
    ·北京将布置10处冬奥主题花坛
    ·最多4个月 苹果Apple Music向中国用户免费送会员
    ·中国移动:明年与广电共建共享5G 没计划建合资公司
    新闻要闻>>
    ·我国大推力氢氧火箭发动机垂直双工位
    ·三美现在最红的是她?
    ·她有机会成功上位吗?
    ·电动冲牙器的狂飙、迷茫和突破?
    ·郑氏姐妹的美丽思路:颅顶高不了一点
    ·不演古偶的她,这次赢了吗?
    ·她那么美,却又那么惨
    ·奚梦瑶和刘雯,超模的两条路
    ·吉祥汽车来了:首款车明年上市
    ·消息称iPhone 17系列屏幕有重大升级:“
    ·百度CIO李莹接任小度科技CEO
    ·韩国7月出生人口再创新低,连续45个月
    ·二季度全国婚姻登记数据
    ·冬天多吃莓果有助肌肤红润
    ·驴肉补益气血,走俏冬季餐桌
    热点财经 >>
    ·OpenAI前CTO拟自己创业 挖墙脚居然挖到
    ·传IBM中国研发岗位员工被收回访问权限
    ·谈到电商增收能力,阿里也开始补课了
    ·苹果即将推出的AI功能将晚于iOS 18的首
    ·马斯克为何背书特朗普,特斯拉或是大
    ·越疆科技8轮融资后估值35亿 深圳又跑
    ·人工智能大会深观察|被围观的人形机
    ·电力股掀“涨停潮”
    ·小米 4 位 4 控插线板上市:独立开关、
    ·OpenAI再次加塞砸场?谷歌展示自己才是
    ·在锂产业的前沿,矿商正押注于更环保
    ·AI PC之夏临近:高通发布骁龙X Plus芯片
    ·ColorOS 重磅升级,流畅性体验再提升,
    ·MCN涉足A股重整 *ST步高直播电商猜想
    ·【一线调研·加快形成新质生产力】上
    科技生活>> ;
    ·2024吴声年度演讲:做你自己,因为别
    ·2024 Q1大陆TWS市场:小米超越苹果跃居
    ·中国古代私家园林建筑的杰出代表 苏
    ·浪漫与现实的碰撞,爱情与面包的较量
    ·新华时评|传承“乒乓外交”精神,促
    ·教育部:将爱国主义教育纳入国民教育
    ·亿万富豪找回丢失25年儿子引热议,
    ·对话导演钱宁黄:环境一直变动 要为
    ·X掉蓝鸟,对标微信,马斯克收购Twit
    ·马斯克又吹牛?分析显示大广告客户并
    ·“千眼天珠”:能拍太阳打“喷嚏”的
    ·华尔街顶级分析师警告:美国人口老龄
    ·山东新增一所大学!
    ·微信 iOS 版 8.0.42 正式版支持多语言“
    ·办公之光?WPS AI已面向社会开放!
    ·蔚来推出电吸门升级服务 专为NT1平台