**Computer Engineering** 

2006 年 12 月 December 2006

• 工程应用技术与实现 • 文章编号: 1000—3428(2006)23—0236—02 文献标识码: A

中图分类号: TP33

# 基于标准单元的低功耗 FIR 数字滤波器 VLSI 实现

齐 悦,李占才,王 沁

(北京科技大学信息工程学院,北京 100083)

**摘 要:**功耗与硅面积一样已成为芯片设计中的关键问题,尤其是在数字信号处理集成电路设计中。基于标准单元的 VLSI 设计是实现数 字信号处理模块芯片或模块的重要方法。该文提出了一种基于标准单元的低功耗 FIR 滤波器多层次设计方案,其中体系结构层次采用多层 流水线策略,逻辑层次将加法集成到部分积压缩中,在电路层次采用最小器件,从而在最大限度减少面积的同时降低了 FIR 的功耗。根据 实际需求,该设计方案易于扩展和变换,可灵活应用到其它类似的滤波器设计中。实现结果表明在 TSMC0.25 标准单元库下 FIR 的功耗最 多可降低 20%以上。

关键词:低功耗;数字信号处理;FIR 滤波器;集成电路;乘累加器

# Low-power VLSI Design of FIR Filter Based on Standard Cell

#### QI Yue, LI Zhancai, WANG Qin

( School of Information Engineering, Beijing University of Science & Technology, Beijing 100083 )

**(Abstract)** In recent years, power consumption along with silicon area has become the key factor in the chip design, especially in the digital signal process block. Most of digital signal process block are designed in standard cell. One way of low power design based on standard cell is using minimum-sized device. This paper presents a low-power scheme for the VLSI implementation of finite-impulse response (FIR) filters based on standard cell. The scheme is a cross level solution in the view of design flow. A multi-hierarchy pipeline scheme is in the architecture level, integrating addition into Wallace\_Tree is used in logic level, which guarantees achieving minimum-sized device solution in circuit level. Simulation shows that 20% of the power is saved with the proposed scheme, which is flexible and can be applied to other similar designs.

[Key words] Low-power; Digital signal process; FIR filter; IC; MAC

随着便携式计算的普及,在集成电路设计中,低功耗已 经成为与面积和性能同等重要的设计目标,尤其是在涉及大 量计算的数字信号处理领域。

FIR滤波器广泛应用于数字信号处理相关领域,传统滤波器设计<sup>[1]</sup>中存在的问题就是大量的乘加运算将导致芯片面积和功耗的增加。在基于标准单元的集成电路设计中可以通过算法级、体系结构级、逻辑级的改进来优化面积和功耗<sup>[2-4]</sup>。

本文在体系结构层次和逻辑电路层次上提出一种 FIR 数 字滤波器小面积低功耗设计方法,使得在电路层得到一个最 小器件实现 FIR,即:采用多层流水线结构,通过流水线和 复用减少面积;然后进一步加深流水以放松关键路径的时序 约束,得到基于标准单元库的最小器件的网表,从而达到减 少电容、并在最大限度减少面积的同时降低功耗的目的。

### 1 低功耗滤波器

### 1.1 FIR 滤波器基本结构

一个 FIR 滤波器计算公式为

 $y(n) = \sum_{k=1}^{N-1} h_k x_{n-k}$ 

其中,N是滤波器的长度(taps的数量),x是输入数据流, $h_k$ 表 示滤波器的第k个tap的系数,y是输出数据流,如图 1(a)所示。 **1.2 流水线结构设计** 

如前所述,滤波器设计中关键问题就是乘加运算消耗掉 绝大部分的面积和功耗,因此按照算法中的乘加器数量来实 现 VLSI 是不可取的。通常,输入信号的采样频率会比系统 工作的时钟频率低,因此为了节约资源,可选取比采样时钟 快的内部时钟频率,采用流水线技术和乘累加器件复用技术 优化结构,减小面积。



图 1 FIR 滤波器结构 (32taps)

我们在前面的研究中提出基于两层流水线体系结构的

**基金项目:**北京市科技计划基金资助重大项目 " 交互式有线数字电 视信道传输核心技术开发 "

作者简介: 齐 悦(1975 -), 女,博士生,主研方向:集成电路 设计;李占才,副教授;王 沁,教授、博导 收稿日期: 2005-12-22 E-mail: qiy@m165.com FIR滤波器设计<sup>[5]</sup>。把N taps的FIR滤波器分成N/M组,每组M 个taps复用一个乘累加器件,在体系结构上相当于一层流水 线,为保证滤波器的吞吐率不变,每组M个乘累加运算需要 在一个采样时钟周期完成,因此定义比采样时钟快M倍的内 部时钟,总计只需要N/M个乘累加(MAC)模块,大大缩减 了面积。N/M个MAC模块可以并行执行,但考虑到MAC模块 的累加特性,本文在MAC之间采用流水线方式执行,省掉Add 模块,需要在滤波器分组结构的各组间加一个延迟单元(tap) 用来保证滤波器的功能不变,总计增加N/M-1 个taps,图 1(b) 为一个分组示意图(32taps被分成 4 组的例子)。

在上述研究成果的基础上,本文提出了 3 层流水线结构 的FIR实现方案。3 层流水线结构FIR的工作原理:与文 献 [5]相同,第 1 层是组间流水,有N/M个阶段,可简化计算。 第 2 层是组内流水,有M个阶段,实现乘累加复用。其中, M的确定依赖于对应于采样频率的时钟、工艺库特征以及内 部时钟等,需进行优化设计,即确定满足*Mf* ≤ 1/*T*<sub>delay\_MAC</sub>最大 的M,其中,f为采样率,T<sub>delay\_MAC</sub>为在给定工艺库下的乘累 加模块最大延时。第 3 层是在乘累加内部增加流水,其功能 是放松关键路径延时,得到最小器件实现。改进后滤波器的 逻辑结构如图 2。



图 2 组间流水线逻辑结构

 $x_mux$ 和h\_mux模块是输入数据流x和系数h的选通器,由 内部快速时钟和使能信号控制。 $S_{i-1}$ 和 $C_{i-1}$ 是从前一级流水传 过来的"本位和"与"进位和"。在第 1 级,S\_init和C\_init 被置为 0,经过N/M个阶段完成乘累加计算,形成最终的本 位和S与进位和C。最后,需要一个CPA(carry propagate adder) 来得到滤波器的输出y。

#### 1.3 乘累加模块结构及低功耗实现

前面的研究<sup>[5]</sup>中提出了MAC模块实现方案,如图3(a) 所示。 $h_i$ 和 $x_i$ (都以2进制补码表示)经过Booth译码,形成 部分积AS、P0、P1、……。部分积压缩阵列(Wallace\_tree) 由部分积、S<sub>x</sub>、C<sub>x</sub>组成,其中S<sub>x</sub>、C<sub>x</sub>是在组内的计算结果和 前一级流水的MAC模块计算结果之间选通。在组内流水线的 第1组输入运算时,多路选择器选择前一组的计算结果S<sub>i-1</sub>和 C<sub>i-1</sub>,在组内流水线的其它阶段,MAC模块完成自己的乘累 加运算。

分析根据文献[5]产生的的网表,发现其中包含了大量的 非最小器件,原因是完全采用最小器件不能满足时间约束。 对比最小器件和非最小器件,可以看到随着器件尺寸的增加, 电容明显增加,例如:部分积压缩中用到了 ADDFHX4 和 ADDFHX1,ADDFHX4 的电容为 0.0714pF,而 ADDFHX1 的电容为 0.038pF,因此导致了功耗的增加。

分析图 2 的逻辑结构,关键路径为运算量最大的 MAC 模块的输入到输出的路径,加之为减小面积采取的乘累加模 块倍频复用,使得关键路径的时序约束紧张。能否通过增加 流水深度降低时间约束,从而替换掉非最小器件呢?从 FIR 的运算特征可知,增加流水线深度不会影响 FIR 的正确性, 是可行的。为此,本文提出了如图 3(b)所示的乘累加器 MAC 结构,引入第 3 层流水,即将 MAC 分两级流水实现,分别 为 Booth 译码和部分积压缩阵列,关键路径缩减为部分积压 缩阵列的最长路径,放松了关键路径的时序约束,达到用标 准单元库的最小器件实现的目的。然而,增加流水线会带来 额外的寄存器开销,因此 MAC 中的流水不能无限制增加, 实际设计中需要根据情况在速度、面积和功耗之间进行折衷。



图 3 MAC 模块结构

## 2 实现结果分析

不失一般性,本文以一个 32taps的FIR滤波器为例进行验 证和分析。电路基于TSMC 0.25 标准单元库实现,由Cadence 的Verilog-XL<sup>™</sup>仿真器进行逻辑验证,综合与功耗评估工具 是Cadence的PKS。

本例设采样时钟频率为 15MHz,在TSMC 0.25 工艺下 Booth译码和Wallace树串行执行时*T<sub>delay\_MAC</sub>*约为 6.5ns~8ns, 可知当M=8 时的时序约束最紧,即已最大限度地通过流水 线复用MAC模块减少滤波器面积。

如表1所示,随着乘累加复用程度的增加,功耗也是逐 渐递减的。这是因为乘累加器变少,节省了很多输入暂存寄 存器和组间流水寄存器,如图2中的灰色器件。

表1不同分组情况功耗比较

|           | 16MAC*2f    | 8MAC*4f | 4MAC*8f |
|-----------|-------------|---------|---------|
| Area      | 472 028     | 263 915 | 162 967 |
| Power     | 26.24       | 24.76   | 22.72   |
| parameter | 8f=120 f=15 |         |         |

本文提出的方案是基于 1.2 节所述结构,在已高度缩减 面积情况下,通过 1.3 节 MAC 模块内部流水降低功耗,因此, 对图 3 中 MAC 模块内部图 3 (a) 无流水和图 3 (b) 有流水 分别设计实现。在产生的门级网表中,比较 Booth 模块和 Wallace\_tree 模块两部分,图 3 (b)比图 3 (a)使用了更小 的器件。在 M = 8 的情况下,综合与功耗分析结果如表 2。

(下转第240页)