网站公告列表

  没有公告

加入收藏
设为首页
联系站长
您现在的位置: 61IC中国电子在线 >> DSP >> C6000文章 >> C64X系列 >> 文章正文
  [组图]TMS320C64X DSP的程序设计与优化         ★★★ 【字体:
TMS320C64X DSP的程序设计与优化
作者:程凌峰 等    文章来源:本站原创    点击数:    更新时间:2004-9-12    
摘 要:TMS320C64X系列定点DSP芯片具有高速的数据处理能力,本文介绍了64系列DSP的优化流程和程序设计优化的一些方法。
   关键词:DSP;软件优化;汇编;流水线

1 TMS320C64X的特点
采用VelociTI.2体系结构的C64X系列定点DSP芯片,在结构上有许多特点:
1) C64X片内有2个数据通道、8个功能单元(.L1,.L2,.S1,.S2,.D1,. D2,.M1和.M2,其中.M1和.M2为两个乘法器)和2个一般目的寄存器文件(A和B)。而8个功能单元和2个寄存器文件又分成了相同的两组,每组占用一个数据通道。两个数据通道之间包含有两个数据交叉通路。
2) C64X DSP采用超长指令字(VLIW),即在每个时钟周期最高可提供8条32位指令,总字长为256位的指令包同时分配到8个并行处理单元。在600MHz的时钟频率下,当片内8个处理单元同时运行时,其最大处理能力可以达到4800MIPS。
3) C64X DSP具有双16bit扩充功能,芯片能在一个周期内完成双16bit的乘法、加减法、比较、移位等操作。

2 TMS320C64X的软件开发
流程。
TMS320C64X内部有8个独立的功能单元,所以在一个周期内最多可以并行执行8条指令。然而指令与功能单元之间特殊的映射关系、每一条指令执行时间的不相同、每一条指令的数据通路的不相同和指令间操作数的相关性等因素,致使一个周期内实际能并行执行的指令数达不到8条,从而降低了DSP的性能,因此,必须采用合理的开发和优化流程,尽可能的对代码进行优化,从而提高指令执行的并行度。
如图1所示,工作流程一般分为三个阶段。
阶段一:直接按照需要用C语言实现功能。在实际的DSP应用中,许多算法都是非常复杂,直接用汇编代码编写,虽然优化效率很高,可是实现的难度却很大,所以一般都采用先用C语言来实现,然后编译运行,利用C64X开发环境的profile clock工具测试程序运行时间,若不能满足要求,则进行第二阶段。
阶段二:C语言级的优化。选择C64X开发环境提供的优化方式以及充分运用其他技巧,优化C代码,若还不能满足效率要求,则进行第三步。
阶段三:汇编级的优化。将上一阶段C程序中优化效率较低的部分提出来,用线性汇编语言编写,利用汇编优化器进行优化。汇编优化器的作用是让开发人员在不考虑C64X流水线结构和分配其内部寄存器的情况下,编写线形汇编语言程序,然后汇编优化器通过分配寄存器和循环优化将汇编语言程序转化为利用流水线方式的高速并行汇编程序。
上述的三个阶段不是都必须经过,当在某一阶段获得了期望的性能,就不必进行下一阶段的优化。

3 C代码的优化方法
对于C64X平台下的C源程序,可以选用的优化方法有:
1) 选用C编译器提供的优化选项
在编译器中提供了分为若干等级和种类的自动优化选项,如下:
● -o:使能软件流水和其他优化方法
● -pm:使能程序级优化
● -mt:使能编译器假设程序中没有数据存储混淆,可进一步优化代码。
● -mg:使能分析(profile)优化代码
● -ms:确保不产生冗余循环,从而减小代码尺寸
● -mh:允许投机执行
● -mx:使能软件流水循环重试,基于循环次数对循环试用多个方案,以便选择最佳方案。
根据实际编译的程序,选择合适的优化选项,进行源程序的优化。
2) 减小存储器相关性
为使指令达到最大效率,C64X编译器尽可能将指令安排为并行执行。为使指令并行操作,编译器必须知道指令间的关系,因为只有不相关的指令才可以并行执行。当编译器不能确定两条指令是否相关时,则编译器假定它们是相关的,从而不能并行执行。设计中常采用关键字const来指定目标,const表示一个变量或一个变量的存储单元保持不变。因此,在代码中加入关键字const,可以去除指令间的相关性。例如下面的程序:
void vecsum(short *sum,short*in1,short*in2,unsigned int N)
{
int i;
for(i=0;i<N;i++)
sum[i]=in1[i]+in2[i];
}
由其相关图2(a)可见,写sum可能对指针in1、in2所指向的地址有影响,从而in1和in2的读操作必须等到写sum操作完成之后才能进行,降低了流水效率,为帮助编译器确定存储器的相关性,使用const关键字来指定一个目标,上面的源程序可改为含关键字const的优化源代码:
void vecsum(short * sum, const short*in1,const short*in2,unsigned int N)
{
int i;
for(i=0;i<N;i++)
sum[i]=in1[i]+in2[i];
}

由其相关图2(b)可见,由于使用了关键字const,消除了指令之间的相关路径,从而使编译器能够判别内存操作之间的相关性,找到更好的指令执行方案。
3) 使用内联函数(intrinsics)
内联函数是C64X编译器提供的专门函数,它们与嵌入式的汇编指令是一一对应的,其目的是快速优化C源程序。在源程序中调用内联函数,与调用一般的函数相同,只不过内联函数名称前有下划线作特殊标识。当汇编指令功能不易采用C语言表达时,可采用内联函数表示。例如在定点运算中经常要求出源操作数的冗余符号位数,这一功能如果用C完成的话,需要如下的代码:
unsigned int norm(int src1)
{
unsigned int sign, result = 0;
sign = src1 & 0x80000000;
while(1)
{
if(sign)
{
if((src1 = src1 << 1) & sign)
result += 1;
else
return result;
}
else
{
if((src1 = src1 << 1) | sign)
return result;
else
result += 1;
}
}
}
该源程序代码冗长,有较多的逻辑操作和判断跳转,运行效率低下。若用内联函数,则是result = _norm(src1),减少了代码长度,提高了运行效率。因此对于需要大量C代码才能表示的复杂功能,应该尽量用C64X的内联函数来表示。
4) short型数据的int处理
C64XDSP具有双16bit扩充功能,芯片能在一个周期内完成双16bit的乘法、加减法、比较、移位等操作。在设计时,当对连续的short型数据流操作时,应该转化成对int型数据流的操作,这样一次可以把两个16位的数据读入一个32位的寄存器,然后用内部函数来对它们处理(如_sub2等),充分运用双16bit扩充功能,一次可以进行两个16bit数据的运算,速度将提升一倍。
5) 尽量少进行函数调用
函数调用的时候,要将PC和一些寄存器压栈保存,函数返回时,则将这些寄存器出栈返回,增加了一些不必要的操作。所以一些小的函数,最好是用适当的内联函数代替直接写入主函数里,一些调用不多的函数,也可以直接写入主函数内,这样可减少不必要的操作,提高速度。但是这样往往会增加程序的长度,因此是一种利用空间换取时间的办法。
6) 尽量使用逻辑运算代替乘除运算

在DSP里,乘除运算指令的执行时间要远远超过逻辑移位指令,尤其是除法指令,在设计的时候,可以根据实际情况,进行一些调整,尽量用逻辑移位运算来代替乘除运算,这样可以加快指令的运行时间。
7) 软件流水线技术的使用
软件流水线技术用来对一个循环结构的指令进行调度安排,使之成为多重迭代循环并行执行。在编译代码时,可以选择编译器的-o2或-o3选项,则编译器将根据程序尽可能地安排软件流水线。图3显示一个运用软件流水线方式的循环,它包括A、B、C、D、E5次迭代,同一周期可最多执行5次迭代的不同指令(阴影部分)。
在DSP算法中存在大量的循环操作,因此充分地运用软件流水线方式,能极大地提高程序的运行速度。但使用软件流水线还有下面几点限制:
● 循环结构不能包含代码调用,但可以包含内联函数。
● 循环计数器应该是递减的。
● 循环结构不能包含break,if语句不能嵌套,条件代码应当尽量的简单。
● 循环结构中不要包含改变循环计数器的代码。
● 循环体代码不能过长,因为寄存器(32个)的数量有限,应该分解为多个循环。
在软件流水线的运用上,应该尽量使复杂的循环分解成简单的小循环,以避免寄存器的数量不够;对于过于简单的循环,应该适当的展开,以增加代码数量,增加流水线中的迭代指令。
8) 采用指令乱序技术
程序中,有些指令的执行顺序没有严格的要求,可以作出一些位置上的调整,因此可以适当的调整这些指令的位置,穿插于其他的指令之中,从而减小指令的相关性,增加运行时的并行性。
尤其在循环里,当循环体较小的时候,可以把多个循环的代码写在一个循环体里,合并成一个循环,从而减小循环内指令的相关性,增加指令运行的并行性。但是要注意不要使循环过于复杂,以至不能进行软件流水线的优化。

4 汇编代码级的优化
在经过C代码的优化之后,还不能满足性能上的要求,则可以通过profile clock工具找出效率很低的部分,使用线性汇编重新改写。再通过汇编优化器编译,汇编优化器从输入的线性汇编代码中,完成以下功能:
● 寻找可以平行执行的CPU指令。
● 在软件流水线期间,处理流水线标号。
● 分配寄存器的用法。
● 分配功能单元。
TI提供的汇编优化器可以得到很高的效率,一般可以满足性能上的要求。

5 优化中的问题
在优化过程中,总是要对程序进行一定的改动,这样经常会出现一些问题。
1) 优化结果的验证
优化过的程序往往不知道是否运行正确,这就需要加以验证。一般采用的办法就是通过测试序列来验证。测试序列指的是对于不同的算法所取的一组特殊的数据,这些数据可以准确的反映算法的特性。测试序列中每组数据包括输入数据和输出数据,通过对输入数据的运算,把结果与输出数据进行比较,判断程序的正确性。一些常见的算法,一般都提供了测试序列。还有一些,没有测试序列。这时就需要根据算法的特点,自己构造测试序列,进行验证。构造的时候,注意序列最好有几组,数据最好有一定的长度,这样验证的更准确。
2) 内存泄漏的问题
C64X系列DSP的内部存储空间有1MB,其中程序和数据还有CPU的二级缓存将共享这片空间,因此当程序的运行不正常时,很有可能就是内存泄漏造成的。因此,在程序设计中,应尽量不用指针,同时注意进行边界检测。

6 程序设计的一些方法
程序设计时,一切以满足实际的要求为目标。在实际的设计中,除了优化能够提高性能以外,还可以采取其他的办法,利用DSP的特性,提高程序的运行性能,满足实际的设计要求。
1) 把程序和经常要用的数据放入片内RAM
片内RAM与CPU 工作在同一时钟频率,比片外RAM性能高得多。因此把程序放在片内可以大大提高运行的速度。同时对于一些经常要用到的数据,放入片内,也会节省处理时间。
2) 通过DMA技术搬移数据
对于C64X芯片,其片内RAM有1MB,但是对于一些大型的图像处理算法而言,仍可能是不够的,因此经常通过DMA技术,把需要用到的数据搬入片内,把不需要的搬到片外,可以大大的提高程序的运行速度。
3) CACHE的使用
增大CACHE,可以明显的提高性能。但是C64X系列DSP中程序和数据还有CACHE共享片内RAM,因此增大CACHE,就减小了实际的片内可用空间,设计中需要注意。

7 结论
以上均是笔者在实际的DSP实践中总结得出,对实际开发非常有帮助。以笔者对5×5模板的高斯滤波算法优化为例,在优化之前,算法的运算量为50MIPS,优化后的运算量约为2MIPS,提高了20多倍,可见优化的效果很明显。以上这些经验主要是针对TI公司的64系列,但其中的一些对于别的型号的DSP也有借鉴作用。

               欢迎点击进入:TI德州中文网   (国内唯一针对TI应用的中文技术网站)    文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    最新热点 最新推荐 相关文章
    TMS320C64X DSP的程序设计与…
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    站长:61IC 湘ICP备05002478号