数值分析 发表于 2022-9-24 23:04- f& N* O# q1 f1 M) `
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33% @ m' Z# d( h$ ^. l
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB) c: N" p; o1 g6 s
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。4 \# J. Y2 t% q
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46" n* L- r+ e% q) J/ h% ?4 F
有道理。, N: n$ Z+ @- Z9 W4 Z( Q
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。3 C2 M* P* a3 E6 ~2 x
# M9 D# z1 P/ f& G( L3 f: T
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48+ _- t/ c v$ ^2 ~9 u
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58$ N5 C: I$ S6 ]* V
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);, n% R2 B! L* M J: z- o: h
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];( D8 x9 u% C: g5 ^) L* m! I* R
j q1 z) E2 j) Y# s. d& t2 V
for (int j = 0; j < 6000; j++)7 M, K5 `* z) H a5 N, r
{& g- i5 L' T# h z7 q/ c' p2 t
std::generate(vec1.begin(), vec1.end(), []() {2 m' B% d6 g2 e$ j
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});1 v$ i; |) T' V" ?9 n5 C% [+ m
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;# H0 w i* l: w8 \7 u4 o
});6 i# ?+ s ?" e1 p# i
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];* T0 f9 v; e; R( p, s
}$ X4 _: v0 x, d4 l% c" c
. w( C2 T" `6 @) W/ a. Z
for (size_t jj = 0; jj < vec2.size(); jj++)
{. [" ~5 b$ ^) S) E
b2[jj] = vec2[jj];- e4 l& {7 G' M/ n+ F+ B+ A
}
: I+ }$ u' X# A. _0 f7 W' _
//Method - 1 N=100000 247s ( b# M5 e$ H3 d: n
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);* o) K) M! B$ S
//Method - 2 N=100000 237s( h. X: E2 q( `/ E# i4 \
/*
for (int jj = 0; jj < N ; jj++)6 Y1 p. v2 q: h* c$ x/ |# P4 l6 X
{
fresult += vec1[jj] * vec2[jj];# m' c' h: F; h4 m- D7 s$ S
}
*/
: F. C% y2 f( Q" E( h7 H) o0 r
//Method - 3 N=100000 204s0 J& ]5 j2 L& y5 O! j3 z
/*
for (int jj = 0; jj < N; jj++)- x5 V5 [! O; H; A5 M. F
{) j7 {0 m- ]. z( R1 m$ `- u+ x' {
fresult += b1[jj] * b2[jj];0 P% ?6 F: Q( i. w/ c) C0 e+ ~& h! @
}
*/ Z/ @" }0 S5 _
//Method - 4 202s
/*) X8 q' h3 T6 `# [1 a0 H( j H
for (int jj = 0; jj < N; jj++)
{
}" @& v! t2 h8 r, r0 z& \! ]. V
*/
//comment out all methods, N=100000 202s
}
delete []b1;% l! _0 n; p' h, r" u. S( B) v% Q# W
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:168 u6 v3 f1 O: v
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
$ L5 M) ?1 Z# z7 g
不和它 ...
雷达 发表于 2022-9-24 23:54( _# d L8 |) @$ k
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)2 s7 K8 s& K; W+ Z
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30) J" v8 ~; S' [* z
理了理思路,重新做了一个测试。! G3 i: Q) d- I/ x+ M7 \$ ~; f
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39 |; J0 E' \* o7 ~4 Q3 O3 I
这个时间是从哪里开始算的? Q+ y; B0 Q/ X# ~
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54 v& U/ U+ o e
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{; L# `8 l/ u: U/ ^9 [8 z/ G
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
0 M$ Q+ B5 I5 A* L: R( E# c5 f4 K( _
...
欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |