数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?/ d3 V' Z9 }0 W/ s3 }' t0 q
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33 S$ Y& d- ]! b! R: w; X
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54( E7 e* ?& U& R' |* a
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)/ X( n( S( ~( d: v3 l% C! }" y
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。0 |& n- x2 J/ s6 Y
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46 a. X( O0 b6 _9 X- v( u9 k
有道理。$ |1 B8 U" X9 |' t( E( T
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20* M6 Z# t! K' ^. x
这个不是这么比的吧。。。
& U# p5 z8 ]. W2 r" ~6 _# s
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47& j2 R* I: [7 ] i' p1 p
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];* X" u, i' {) R o. n" Z" v, O$ s
float* b2 = new float[N];" m) u7 I" l0 d2 z8 u& K
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;' G( }2 ^$ ^! j9 G0 I# F
});) o: n* P6 F& E
* X, d+ R- R- D
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;& X1 G4 Q4 K% {+ P( n! L6 X
});
for (size_t jj = 0; jj < vec1.size(); jj++)
{# M4 s+ p/ H1 u* |, R% u
b1[jj] = vec1[jj];6 T# t7 k# B3 v$ I$ q1 c# v
}
) x' V* y* { d: i" f3 d
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}4 I/ J; M. ~% C' A
_& s* B5 |0 n$ R+ _
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);% P$ O- c5 V5 t+ n) g
9 Z( W5 b$ V; p8 V1 j
//Method - 2 N=100000 237s
/*, o, J6 r$ D, |1 b* o
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];# T4 {# W: w* q4 D$ a: s
}0 _ D& b h) R" @: Y) W2 V% C
*/2 F" e, R- [ L" I4 Z2 E; d
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{& S) U# h. Z* Z" v% u1 X1 @
fresult += b1[jj] * b2[jj];
}# D) k/ O7 r2 k+ |9 O v8 V' w2 T
*/
//Method - 4 202s
/*8 P, b) w F/ h3 j) I6 k1 Z
for (int jj = 0; jj < N; jj++)( W" B G! o9 d8 B8 S% T: b8 e
{
A- d+ @# F$ U0 a4 y
}0 K: p: l) t: x: ~& b6 M% d
*/
//comment out all methods, N=100000 202s
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?, s: Y. I# A2 Z `/ m" i
/ h+ s: ]0 q& a, r' _+ ]$ ^) w
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16; g3 T$ V& r" [( e6 G& y
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL: I) C% a' i4 m! P+ L. w
不和它 ...
雷达 发表于 2022-9-24 23:549 u9 D: N3 \/ Y; W) y
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39. m; V% Q+ O/ o! T( {# O% w
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29) Z- r& r: h) t7 y& x! Q
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
" M- R7 r$ t) P! V3 M3 V
...
欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |