数值分析 发表于 2022-9-24 23:043 ~$ w1 c4 g+ {$ O0 J
拉下来?拉多少?6 p2 L R" ?* m! W# o8 t
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:540 C9 x3 G. K7 M$ H3 i
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB): W o: \4 U9 q4 L( c! m
{2 g3 v4 ?( g7 L# t; Z" L! w5 e, c
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。6 f" v, u6 o* U. K& r8 ~# Z
$ b1 g& V$ {8 d5 Y/ n
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。3 _) `+ y& d$ e7 f
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:275 M Q4 g. r' O
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47& f, E7 ~! \, I5 L* ^/ t
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47, B0 l3 v# e9 |" U
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:588 I" z2 O' }4 |: S) e3 F
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);9 A2 R/ J; E) n& ]3 k9 r ?
std::vector < float > vec2(N);: Y1 \( r/ e0 V; Y0 J+ H% n
float* b1 = new float[N];
float* b2 = new float[N];
! ]: b7 j; Y3 r- Z C o
for (int j = 0; j < 6000; j++)5 W- ^ F( G* i- o' G9 g8 R
{
std::generate(vec1.begin(), vec1.end(), []() {+ H: b6 n1 ?8 N X' q$ `; X
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
8 v% s ^5 A5 X
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});/ C2 O4 [: c/ E, Y! g% A- M
& Z! F4 b3 q! s% b4 I0 _4 A
for (size_t jj = 0; jj < vec1.size(); jj++)4 D$ U7 ~/ G( a( H- {. n
{5 z; G/ A# x) L1 \
b1[jj] = vec1[jj];- {& O7 `# u- G0 M2 w* D
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}( E- }* F. \* D" Z, d! [$ O
//Method - 1 N=100000 247s " |8 Z: J, C) }# d! S
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);+ `- a7 B J3 ?! m' L! R G
//Method - 2 N=100000 237s
/*# l b4 c% [! O6 W7 ~$ n8 H
for (int jj = 0; jj < N ; jj++)
{9 [& c, N6 m: w8 y# I
fresult += vec1[jj] * vec2[jj];0 X. O+ e$ d' o3 o! ?
}! D7 C1 h2 k6 }. l1 o
*/. l/ X9 J. a5 X" S
//Method - 3 N=100000 204s
/*6 m+ F) l+ ^0 [" ^- I. _% ~
for (int jj = 0; jj < N; jj++)
{ h6 S0 j9 w3 a1 _# t K2 I7 |
fresult += b1[jj] * b2[jj];
}
*/ @( F8 B. Q. m; T; g
Q' T* _! \2 r) a8 B$ ]; c) Q( {9 ?
//Method - 4 202s9 d" Q# K, ~. N7 k/ h
/*6 p1 w* f' g# o/ x" C; c1 U
for (int jj = 0; jj < N; jj++)
{) t! r7 |! V: g1 _3 J
W; V {3 g+ f2 f9 {- A9 c% K
}: e. S$ p( O( O8 c1 s) H
*/
//comment out all methods, N=100000 202s
}! ~/ T) w4 s, z% F8 A4 b8 X# M- P
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?% W5 j m8 J, t) r
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:163 N9 `5 G N* P# R) ], S* q: n
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL2 m( j g* t3 f. v
9 n( m8 D% e% S- ~2 V7 C3 ^; o$ m9 j
不和它 ...
+ l" Y( X7 W3 J/ P+ H雷达 发表于 2022-9-24 23:54- H$ D: Q) m. M' j* D& G
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)7 ^+ l* V) q3 _4 x C g) w
{( j* n7 s6 u* E) c5 ?
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)* `1 m0 a/ w5 ? @
{/ u7 X+ P; X4 |8 V, f
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29- W0 y6 a' }( y
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗: x; `6 h6 a" E% b* Z
3 n8 R5 Y; T$ B$ A" ?8 Y! _" H
...
。% Y* P/ z, [7 s+ b

0 B! {) a8 V/ V0 E0 s' R) T' I; V| 欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |