上海油压工作室

微软携手中科院大学团队推出CPU驱动AI模型,1位架构实现低能耗运行

2025-04-28 11:35  浏览:上海油压工作室  

微软研究院与中国科学院大学合作团队近日在arXiv平台发布研究成果,推出全新人工智能模型。该模型突破性地在常规CPU而非GPU上运行,通过创新的数据处理架构显著降低能耗,为人工智能技术落地提供新思路。

传统GPU驱动模型的能耗困境

上海油压工作室当前主流大语言模型(LLM)如ChatGPT依赖GPU芯片进行训练与推理,此类模型在处理海量数据时需要强大算力支撑,导致能耗问题日益凸显。数据中心为支持聊天机器人等应用消耗大量电力,引发业界对可持续发展的担忧。研究团队针对这一痛点展开技术攻关,提出更智能的数据处理方法。

1位架构实现算力优化

新模型摒弃传统8位或16位浮点数存储权重的方式,转而采用“1位架构”。其核心创新在于将模型权重简化为-1、0、1三种离散值,使推理过程仅需基础加减法运算。这种设计极大降低了内存占用与CPU处理负担,实验数据显示该架构在保持性能的同时,内存需求减少至传统方案的1/16,能耗降低超90%。研究团队强调,此方法使普通计算机或移动设备即可运行高效AI模型,无需依赖专业GPU硬件。

BitNet b1.58模型与专用运行环境

为适配1位架构,团队开发了配套运行时环境bitnet.cpp。该系统针对离散权重矩阵优化内存分配与指令调度,支持20亿参数规模的模型在单核CPU上稳定运行。测试结果表明,新模型在CPU环境下的推理速度接近传统GPU方案,且模型精度损失控制在可接受范围内。在MNIST、GLUE等基准测试中,其性能表现与同类GPU模型相当,部分场景下甚至实现超越。

本地化部署提升隐私与能效

该技术突破为AI应用带来双重价值。在隐私保护层面,用户数据无需上传云端即可完成处理,支持完全离线的智能助手开发。研究团队在树莓派等边缘设备上成功部署聊天机器人系统,响应延迟低于300毫秒,且支持断网运行。在能效层面,单个推理任务的耗电量较传统方案减少92%,单次交互能耗不足0.03Wh。这一特性使其在移动终端、物联网设备等场景中具备显著优势。

免责声明:本网转载自合作媒体、机构或其他网站的信息,登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。本网所有信息仅供参考,不做交易和服务的根据。本网内容如有侵权或其它问题请及时告之,本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
相关推荐
我国在白天完成地月空间卫星激光测距

我国在白天完成地月空间卫星激光测距

记者从深空探测实验室获悉,4月26日至27日,天都一号通导技术试验星成功完成白天强光干扰条件下的地月空间激光测距技术试验,在国际上首次打破地月空间卫星激光测距仅能在夜晚作业的时间限制,标志着我国在深空轨道精密测量领域取得技术新突破。地月空间卫星激光测距,就是用激光测量地球与地月空间卫星之间的距离。由于地月空间尺度极大、卫星运动速度极快,对地月空间卫星进行激光测距相当于在万米外瞄准一根头发丝,并实施精密跟踪与信号捕获...

据知情人士透露,索尼集团正考虑最早在今年分拆旗下半导体业务并推动其独立上市。消息人士表示,这家日本科技巨头在分拆后可能保留索尼半导体解决方案公司的部分股权。索尼发言人对此回应称:"相关报道仅为市场猜测,公司目前尚未制定具体计划。"近年来,索尼持续优化业务结构,逐步向娱乐产业转型,此前已宣布将剥离其金融业务部门。分析师指出,若分拆计划成行,将有助于索尼进一步聚焦核心业务,同时为半导体业务获取独立发展空间。目前索尼半导体业...

记者28日从中国科学院自动化研究所获悉,该所科研团队成功研发脑机接口柔性微电极植入机器人——CyberSense。这台机器人能像缝纫机穿针引线一样,将比头发丝还细的柔性电极精准植入动物大脑,为脑机接口与脑科学研究提供关键支撑。柔性脑皮层微电极植入机器人CyberSense。图片来源:中国科学院自动化研究所CyberSense具有自动化程度高、可植入数量多、空间定位准、时间效率高、使用方便快捷、灵活避让血管的优势,有效提高了成功率和植入效果...
诺基亚携手TAWAL展示全球首个多租户Open RAN边缘云平台

诺基亚携手TAWAL展示全球首个多租户Open RAN边缘云平台

诺基亚和沙特中立主机提供商 TAWAL 完成了全球首个多租户、可共享的 Open RAN 边缘云平台现场演示,使移动运营商和大型企业能够以比以前低得多的成本推出高性能 5G 服务。此次展示证明了 TAWAL 如何提供主动基础设施即服务 (IaaS),同时运营商也能享受显著的成本节约,并通过开放的云原生灵活性确保其网络面向未来发展。诺基亚的 anyRAN 架构以独特的方式,提供了在开放边缘云上运行 anyRAN 工作负载所需的可靠性能。随着智慧城市千兆项目...
微软携手中科院大学团队推出CPU驱动AI模型,1位架构实现低能耗运行

微软携手中科院大学团队推出CPU驱动AI模型,1位架构实现低能耗运行

微软研究院与中国科学院大学合作团队近日在arXiv平台发布研究成果,推出全新人工智能模型。该模型突破性地在常规CPU而非GPU上运行,通过创新的数据处理架构显著降低能耗,为人工智能技术落地提供新思路。传统GPU驱动模型的能耗困境当前主流大语言模型(LLM)如ChatGPT依赖GPU芯片进行训练与推理,此类模型在处理海量数据时需要强大算力支撑,导致能耗问题日益凸显。数据中心为支持聊天机器人等应用消耗大量电力,引发业界对可持续发展的担忧。研...

推荐阅读

Copyright © 上海油压工作室