| 作者 |
[原创]“内存墙”和CPU设计新思路,最近的进展和计划 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
|
[原创]“内存墙”和CPU设计新思路,最近的进展和计划
|
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
“内存墙”和CPU设计新思路,最近的进展和计划
“内存墙”是一个改变世界CPU工业格局,以至于全世界整个IT业格局的巨大技术挑战。通用CPU工业正在走过一个完整的轮回。“内存墙”使得Intel多年来的技术积累变得毫无价值,Wintel联盟正在迅速败退。20年前,许多CPU设计公司被Intel全部打垮。现在,众多新的CPU公司,正在卷土重来,包括苹果和Oracle都在大力投资通用CPU。不过,目前,通用CPU设计的新发现,新思路并不多。我发现的内存访问规律和在此发现基础上发明的新CPU缓存替换算法是30年来最大的一个理论突破。如果国产CPU利用这个技术,可以一步登天,领先世界。
“内存墙”问题在10年前,只有少数顶尖科学家重视。比如Alpha芯片的总设计师Richard Sites。其他的科学家,大概是善意或者恶意地忽视了。我个人认为“内存墙”问题是在被掩盖。就在两年前,“内存墙”还不为人所知,如果Google的话,内容很少,中文的基本没有。现在Google“内存墙”,有很多结果。“内存墙”问题已经无法掩盖。“内存墙”的后果,我们每个人都感受到了。我过去的两年买了两台笔记本都非常热,导致故障,不得已买上网本。我现在依然在用XP操作系统,不想升级。Vista奇慢无比,Win7也不好。
过去20年,PC的商业模式就是:Intel不停地推出更快的CPU,微软把软件写得更慢,强迫大家升级。现在,因为“内存墙”问题,“Intel rubbish at making chips”。这个生意模式已经不行了。过去5年,苹果飞速发展,特别是采用ARM芯片的IPhone和IPAD。ARM有机会成为下一个Intel。不过苹果和其他人,显然会压制ARM。苹果最近连续收购多家小CPU设计公司,就是例子。Oracle的老板也不甘寂寞,SUN已经到手,但是他还在收购CPU公司。
可以肯定,任何有助于突破“内存墙”的技术,都有巨大价值。以AMD的前CTO,Fred Weber为例。2005年,Weber提出了“Instruction Set Consolidation”的概念。意思是说,因为内存墙,CPU核心的区别已经没有意义了,任何CPU核心,效果都是一样的。 Weber为AMD指出的道路是:X86无处不在。Intel现在就是走的这条路。但是,Weber当时被AMD开除了。离开AMD后,Weber成立了一家公司metaRAM,专门做新的内存。最近的消息是,这家公司关门了。在没有新发现和新突破的情况下,“内存墙”哪有那么容易突破。
我的发现是一个偶然,当然也是我辛苦努力的结果。我当时无聊地亲自重复所有的实验。过去30年来,所有的人都相信“时间局域性原理Principle of Temporal Locality”。这个原理和LRU替换算法,是每一本教科书必讲的。比如计算机体系结构的圣经教科书,斯坦福大学的著名教授,MIPS的发明者,Hennessy和Patterson的《量化研究方法》第4版的38页,对“时间局域性原理”的描述是:The recently accessed items are likely to be accessed in the near future。但是,我肉眼观察和统计的结果,恰恰与之相反。我发现的,内存访问的分布呈现严重的“长尾”形态。几乎所有的程序,最少超过50%的数据是只使用一次的。而且,在网络和多媒体应用中,只使用一次的比例,超过90%。我详细查阅资料,包括我,有三个人发现了这个规律。但是,只有我认真地坚持下来,据此发现,重新设计CPU缓存。
通过和“离线最优替换算法”比较,我发明的WLRU替换算法,性能已经接近理论极限。也就是说,优势可以保持一段时间。如果出现抄袭者,性能超过我的可能性不大,接近,是有可能的。我的专利已经批准了一个,美国专利7783836。后续专利也已经提出。
产业化,我准备尝试各种可能。既自己做,也把技术和专利转让给任何人,特别是国内的有雄心的企业。当然也不排除Intel,AMD和苹果,Oracle。这些都不矛盾。因为,市场经济下,估值的规则是“Damage based”。如果我自己的企业或者国内企业靠这个技术给Intel造成了巨大的麻烦,这个技术对Intel就越值钱,Intel就越愿意出大钱来买,最近两年,Intel还拿得出钱。
我现在正在把WLRU缓存做成一个IP,用在ARM芯片上。 我们开发的IP和ARM自己的二级缓存PL310,接口完全一致,可以无缝替换。国内目前有几家在做ARM Cortex A9的芯片,都可以使用这个技术。IP的设计已经完成,正在测试。采用WLRU缓存后,国产CPU的性能可以立刻世界领先,山寨IPAD的高画质3D图形和高清视频解码能力,将大大强于苹果。
缓存是CPU中最重要的,可以说是唯一重要的。一块CPU芯片的90%都是缓存,CPU计算部件所用的晶体管,不到14%。
WLRU缓存替换算法,是捡了个漏。天上给祖国掉下来的金元宝。就看祖国和帝国主义,谁的运气好。
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
| 返回顶端 |
|
 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
|
我也在申请国家的12五重大专项。
|
在OpenSparc的基础上,做一块高性能CPU出来。
虽然我没有全程完整地设计过CPU,但是在OpenSparc的指导下,做SOC的问题不大。只有那个时钟,PLL有点麻烦。
CPU的难度主要在软件,也就是一个生态系统。虽然说,指令集对性能已经不重要。但是,指令集依然是一个商业竞争的利器。
最终,我的目的是要做一套中国版指令集出来。
|
|
|
| 返回顶端 |
|
 |
安的鲁8
头衔: 海归上校 
声望: 教授
加入时间: 2005/02/27 文章: 1146
海归分: 68056
|
|
| 返回顶端 |
|
 |
云飞扬
警告次数: 1
 头衔: 海归中校 
声望: 学员
加入时间: 2010/09/28 文章: 550
海归分: 39033
|
|
| 返回顶端 |
|
 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
| 返回顶端 |
|
 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
|
WLRU缓存,在三个应用上,有绝对的优势。
|
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
服务器,3D图形和数字视频。
最重要的是,WLRU缓存是唯一可以同时,只用一块芯片,加速网络,3D图形和视频的技术。 也就是说,国外的3D游戏机用两块芯片,CPU加GPU做的事情,我们用一块CPU就做了。
我在OpenSparc上改的芯片,准备用在服务器上。
使用ARM Cortex A9的芯片,准备用在IPhone,IPAD,和三维游戏机上。
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
| 返回顶端 |
|
 |
云飞扬
警告次数: 1
 头衔: 海归中校 
声望: 学员
加入时间: 2010/09/28 文章: 550
海归分: 39033
|
|
|
性能比较
|
作者:云飞扬 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
| 绽铃子 写道: | | WLRU缓存,在三个应用上,有绝对的优势。 |
〉我在OpenSparc上改的芯片,准备用在服务器上。
整体性能与Intel/AMD的那个产品相当或有提高?
〉使用ARM Cortex A9的芯片,准备用在IPhone,IPAD,和三维游戏机上。
ARM有自己的GPU。你是想用一个Cortex A9 完成MCU+GPU的工作吗?
作者:云飞扬 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
| 返回顶端 |
|
 |
我是驹
头衔: 海归少校 
声望: 讲师
加入时间: 2007/02/09 文章: 1089
海归分: 11624
|
|
| 返回顶端 |
|
 |
乐闻德 [博客]
 声望: 院士 性别:  年龄: 50 加入时间: 2009/08/02 文章: 6342 来自: Den Vereinigten Staaten 海归分: 47
|
|
| 返回顶端 |
|
 |
SunnySuanRise
 头衔: 海归上尉 声望: 教授
加入时间: 2009/12/17 文章: 1379
海归分: 7402
|
|
|
不是很懂,希望你成功;某ID在楼下乱讲,希望表介意
|
表怪我,怪TUTU,
他问我,
我1般是怎么FEEL就怎么说
所以叫蒜,味道 
|
|
|
| 返回顶端 |
|
 |
煎饼2点0
 头衔: 海归少校 
声望: 博导
年龄: 46 加入时间: 2009/02/20 文章: 3880 来自: 平面世界 海归分: 28615
|
|
|
Hmm......
|
| SunnySuanRise 写道: | | 不是很懂,希望你成功;某ID在楼下乱讲,希望表介意 |
feel随心情而变
从善如流
|
|
|
| 返回顶端 |
|
 |
ferncrest [博客] [个人文集]
头衔: 海归少将 
声望: 教授 性别: 
加入时间: 2005/09/14 文章: 6482 来自: 地球 海归分: 293622
|
|
| 返回顶端 |
|
 |
偶而冒个泡 [博客]
头衔: 海归元勋 
声望: 院士
加入时间: 2007/10/05 文章: 6790
海归分: 3398418
|
|
|
你说的“内存访问的分布呈现严重的“长尾”形态”。。。
|
是不是指“Self-similar processes”?
从通信技术上来看,以前一般都认为网络上的traffic是Poisson 到访的,但是现在的网络由于无穷多的servers(node)加入,网络上traffic的分布已成“Self-similar processes”也叫“heavy-tailed distributions”。
大师的发明在业内应该先争取得一个大奖,这样就不愁没有商家找上门了。
Good luck!
|
|
|
| 返回顶端 |
|
 |
tutu [博客] [个人文集]
 头衔: 海归准将 
声望: 专家 性别: 
加入时间: 2004/02/21 文章: 4238 来自: 广州:gz_venture_club AT yahoo DOT com 海归分: 180045
|
|
|
别急,这不是正在讨论么?
|
| ferncrest 写道: | | 你能否快点拿出行动方案来?别让看客等得急了。。。 |
|
|
|
| 返回顶端 |
|
 |
木辛 [博客] [个人文集]
头衔: 海归元帅 
声望: 院士
加入时间: 2004/02/23 文章: 7094
海归分: 1808921
|
|
|
不懂装不懂:耗电量怎么样?
|
作者:木辛 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
我原来也搞过并行计算,对优化缓存的好处略知一二。
芯片级的方法我不懂。加了你的二级缓存后,芯片耗电量会不会有影响,指令集有没有影响,稳定性如何,电磁影响有没有考虑,与现成的硬件软件接口会不会不兼容。
我不懂芯片,但是我可以问。因为我这里有人懂,我可以和他们讲。
我建议你去找一下李国杰,他的曙光机是专门用来做超级计算的,缓存速度是关键的性能指标,对高速计算影响非常大。你的这个发明或许可以帮助中国的曙光机或者银河机获得世界TOP500的第一名。
作者:木辛 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
| 返回顶端 |
|
 |
aomen
头衔: 海归中校 
声望: 讲师
加入时间: 2008/12/01 文章: 1368
海归分: 44707
|
|
|
此事应指望第四个F, 即FUND。外国是没有介个F滴。中国现在有这个条件,但方肘子会来搅合。
|
看来你反方的最根本动机,未必是什么“只反贪官不反皇帝”,而是丫不懂装懂坏了你的十二五重大项目的好事。
|
|
|
| 返回顶端 |
|
 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
|
耗电量,根据计算,控制得好在5瓦以下,最多不超过20瓦。但是,性能依然是世界第一。
|
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
我降低功耗的办法非常简单,就是降低频率,也就是速度。
因为在内存端口数量一定的情况下,CPU核心的速度超过500MHz就没有什么意义了。
功耗和频率大约是三次方关系。如果频率降到一半,功耗就只有八分之一。由于“内存墙”,降低功耗,并不会影响性能。这也是为什么,ARM芯片,功耗非常低,但是性能并不比Intel的CPU差多少的原因。就连龙芯都不比Intel的CPU差多少。在内存墙面前,大家都是一样的。
WLRU缓存的最大优势就是,在保证性能世界第一的前提下,功耗,成本,都可以降低很多。
缓存是瓶颈,突破瓶颈,一切皆有。
LRU替换算法最大的问题是无法有效利用缓存容量。 Intel core i7 缓存有12MB,Atom只有512KB,但是两者性能差别并不明显。Intel 最新CPU的缓存设计,有许多严重的问题。
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
| 返回顶端 |
|
 |
tutu [博客] [个人文集]
 头衔: 海归准将 
声望: 专家 性别: 
加入时间: 2004/02/21 文章: 4238 来自: 广州:gz_venture_club AT yahoo DOT com 海归分: 180045
|
|
|
中国的Fund
|
| aomen 写道: | | 此事应指望第四个F, 即FUND。外国是没有介个F滴。中国现在有这个条件,但方肘子会来搅合。 |
与券商(投行)合作,专门投资进入上市辅导期的企业。
Start-up不予考虑
|
|
|
| 返回顶端 |
|
 |
绽铃子 [博客] [个人文集]
警告次数: 2
 头衔: 海归少将 
声望: 专家
加入时间: 2006/02/03 文章: 5156
海归分: 288893
|
|
|
欢迎方某参加宣传。 红色中国好不容易有了个在世界上拿得出手的成果,他方某要来搅和,
|
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
| aomen 写道: | | 此事应指望第四个F, 即FUND。外国是没有介个F滴。中国现在有这个条件,但方肘子会来搅合。 |
我求之不得。
老子八字7个金,做事情非常认真,深入,不吹牛。
方某可能讨不到什么好处。
作者:绽铃子 在 新的CPU缓存电路 发贴, 来自【海归网】 http://www.haiguinet.com
上一次由绽铃子于2010-10-17 周日, 06:06修改,总共修改了1次 |
|
|
| 返回顶端 |
|
 |
tutu [博客] [个人文集]
 头衔: 海归准将 
声望: 专家 性别: 
加入时间: 2004/02/21 文章: 4238 来自: 广州:gz_venture_club AT yahoo DOT com 海归分: 180045
|
|
|
这贴应该是跟木辛的那一贴吧?
|
| 绽铃子 写道: | | 耗电量,根据计算,控制得好在5瓦以下,最多不超过20瓦。但是,性能依然是世界第一。 |
|
|
|
| 返回顶端 |
|
 |
|
|
|