数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?) @, H' [! ?. h+ C2 V2 e) D9 Q0 @/ D# B
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33; e4 L, K1 Z0 }; g% Z
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54) O1 g8 A" z* M m
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{& {1 R: P: M; N4 {1 o- Z
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:201 K$ x' w& S/ {$ t, y
这个不是这么比的吧。。。- e1 s! @1 f! H
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:486 v" w0 P L( n- A$ c2 l
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47( H" L/ h. r: M) Q0 x5 i7 Z$ E
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:475 K# e; ], ]+ |& F2 t
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:581 V0 x6 y$ h" n/ X( ]: R1 M2 P
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];# ^$ Q6 K3 I. f9 X0 c) w& g/ v/ K
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)- e& C' L. j2 \& s" c& X
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;7 q3 \" \7 e: j; E/ }0 w r3 y9 m+ }
});# d3 e) ~" L4 u! |
& A* y8 L2 x3 `7 }9 @. V
std::generate(vec2.begin(), vec2.end(), []() {3 O: @2 _" |! V
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});* j% L/ U6 h5 y" f6 e5 O
3 [5 G; F% L) E( k; `% F- r
for (size_t jj = 0; jj < vec1.size(); jj++)5 R8 V7 j1 O3 w W" w( e
{
b1[jj] = vec1[jj];6 ] r6 d: j. J2 j/ I3 m
}
) L7 {) P5 w4 c; X
for (size_t jj = 0; jj < vec2.size(); jj++)& }7 o# R: l9 r9 d
{7 x( x* i. j6 ?; u: S3 P, ~ d `
b2[jj] = vec2[jj];
}5 b$ Q+ B4 b5 K- s- }/ s
3 R- ?9 H$ c0 M/ M
//Method - 1 N=100000 247s ) s. p5 [2 }. p
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);) A3 @* O0 x! i) T
' q8 L# j% _8 q2 B5 M
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)/ J/ m4 ~% s; i, B, G4 G
{
fresult += vec1[jj] * vec2[jj];2 G4 j# `' p! E) m) @% E7 I1 r; k
}& L* V! v% C2 D4 S t
*/
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)1 s" {. l0 h" |/ {' f, Q" f
{3 K& C4 V/ V, N
fresult += b1[jj] * b2[jj];
}
*/" Z* c: B8 f. o& K8 O
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)3 b- A( h; ?1 U/ L% q
{
}
*/" T$ L i! t) f, m0 H5 E1 s
//comment out all methods, N=100000 202s
}* C% k! [; O/ |6 G" I* i! W
& [: }" e# U, O
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
, ]( G3 k7 f m
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16, M* F# N9 V o# P5 c. p/ G
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL8 n8 ^4 ]3 @2 l2 A } x! M
3 O4 M* Q' c T1 U
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)( c- w9 `7 O) q9 J8 L6 D
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:390 p% \& ^/ x: q8 P
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)( U# F- k: u a' r) p" S0 t
{1 h Y, M0 G5 D% r
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29: E% z1 l0 _8 w. K
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |