数字仿真器(Simulator)是一种大型EDA工业软件,是数字验证领域的基础工具之一,也是为数不多的签核(sign-off)级工具。其实历史上第一款 EDA 软件SPICE,就是从仿真开始的。可以说,EDA软件从诞生之日起,就带着强烈的仿真基因。因此,假如没有一款独立自主的数字仿真器,国产EDA实现对国外工具垄断的打破就无从谈起。
目前,行业主流的仿真器,诸如VCS,Xcelium, Questa等,都是国外EDA大厂花了数十年的时间开发、迭代而来的。这些软件内部设计极其复杂、代码量巨大,单单维护的团队人数就可达数百人甚至上千人。由此可见,数字仿真器技术开发难度之大。
合抱之木,生于毫末;九层之台,起于累土。2021年11月,国内系统级验证EDA解决方案提供商芯华章发布了首款数字仿真器产品穹鼎GalaxSim,并得到中科院半导体、芯来科技等用户一线项目部署。
GalaxSim在开发过程中,结合国产EDA的迫切需求,选择了合适的技术路线、开发模式,依托研发团队的丰富EDA经验及高效的工作,站在更高的技术起点上,用几年的时间正在追赶国外几十年的路。
本篇我们将以穹鼎GalaxSim为例,展示一款商用级别的数字仿线的开发过程,包括商用仿真器的技术指标、开发模式、技术路线. 数字仿真器的技术要求
数字仿真器在验证中发挥着举足轻重的作用。判断一款国产仿真器是否能真的商用,还可以与国际主流选择的仿真器并驾齐驱, 一般要看它是不是满足以下四点硬性要求:
SystemVerilog可以说是最复杂的语言之一,而数字仿真器又是EDA工具中对SystemVerilog支持最全面的工具。
仿真器相对其他验证工具,是sign-off级别的,因此要求仿真器必须严格按照事件驱动型的算法进行仿线、
仿真器的性能直接决定了用户在验证上的成本。假如某个优化可以使仿线x, 那可以使原本一个月完成的回归测试缩短到二周,从而给客户省掉很大的验证支出。4、
作为大型工业软件,仿真器的设计极其复杂。一款大型软件,涉及到的模块非常多,参与的开发者也非常多。如何确保软件质量可控,在客户的超大设计上能跑几十小时,甚至几周不发生故障,是考验一个仿真器能否真正商用的重要指标之一。因此,作为用户sign-off 的工具,仿真器的故障率必须极低。即使发生故障,也能在很短的时间内排查并修复。
编译型数字仿真器的原理如上图所示,它从verilog source到最终机器码生成,中间经历了多个环节。它既具备了Compiler的特点,同时又是一个数字电路仿真器。它集成了多种底层技术,涉及编译、算法、图论等知识。尽管从概念上,我们大家可以把这样的一个过程分解成不同的阶段,但是在实际实现上,我们实际上很难单独把某一块抽出来。以parser/elaboration阶段为例,此阶段需要把RTL的语法解析出来。从功能上,它和后面的阶段是不同的。然而,如果把它作为一个模块独立开发,就会面临无法测试的困难。因为有些elaboration的结果,需要到了runtime阶段才可能测出是否正确。
上图给出了两种不同模式的区别。由于Simulator涉及到的环节非常多,有很多任务是有依赖关系的,只能串行开展。如果按照传统的模式,不仅完成所有任务的总时间会变得很长,它还会导致最后联调的时间很的不确定。因为很多模块的耦合性很强,很多问题是需要等到最后所有模块放在一起后才能发现。基于此,
为了降低研发风险,提高开发效率,GalaxSim的开发采用了敏捷开发模式。在敏捷开发模式下,每个任务能不用一步到位,而可以先做一个比较初级的版本,从v1开始做迭代,直到vN。
从0到1,开发一款具备国产自主知识产权的仿真器,肯定不能仅仅做一个产品,需要有创新、超越。我们面临的问题是,做一个怎样的仿真器,能在解决国产替代的基础上,实现最终的超越?这里面既要守正,也要创新。
何谓守正?创新的前提首先要先解决有无的问题。上文提到,不管采用什么技术,仿真器都一定要满足四个指标:SystemVerilog、精度、性能、可靠性。因此,任何研发路线与技术的选择,都一定要满足以上4个约束条件。与此同时,我们吸取主流数字仿真器的历史研发教训,针对国内使用环境进行客制化创新。比如在SystemVerilog方面,很多主流仿真器的支持其实并不是一步到位完成的,而是在一系列并购后集成进来的。GalaxSim在这方面,能发挥后发优势,采用全新的设计框架,更好实现SystemVerilog的丰富语法,让整ile flow无缝对接,避免不断“打补丁”带来的技术冗余与滞涩,提供更完整、一体化的验证解决方案。以性能为例,runtime是仿真器的一项重要技术指标。大多数国际主流仿真器在过去数十年都做了大量的工作。然而pile time 也是性能的一部分。近5-10年,随着设计规模慢慢的变大.compile time 也日益成为性能瓶颈。而且.compile time 和 run time常常是矛盾的。
敏捷开发意味着快速的软件迭代。GalaxSim 的迭代历程,比较类似于一个胚胎的成长过程。胚胎每一步的变化并不大(比如细胞分裂),然而,经过足够的变化,最终就会由量变到质变,就像蝶变一样。如何确保GalaxSim的迭代是按照我们设计的方向,而不会走偏呢?这里面,软件的迭代又非常像生物的进化,我们应该设计好一个目标(生存条件),以及一个进化环境。根据前文所述,GalaxSim从0到1的第一阶段目标,是要演变成一个至少满足4个约束条件的仿线以终为始,设计迭代目标
如何确保软件向着我们设置的目标进化,而不是走偏,进化环境至关重要。芯华章的开发团队为此专门搭建了一套内部CICD flow, 包含了回归检测系统,这个系统包含了大量的测试用例,各种测试基准(benchmark)。
GalaxSim在这些用例中的表现结果会被实时监控。尤其是性能方面,我们的系统引入了类似银行的记账功能。每个研发环节导致的slowdown都会被记录备案,每一笔帐都可以追溯。这些严苛的环境,确保了软件最终的性能及质量。值得一提的是,这套系统是我们在第一天就开始着手搭建的,与GalaxSim的核心代码是同步开发的。
目前GalaxSim已经在中科院半导体所、芯来科技等若干客户的一线项目中得到应用,性能符合客户预期。