数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?% a! L' h9 X( \
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33: _" w6 X, B- S. t
Maybe Debug mode?
雷达 发表于 2022-9-24 23:541 \. q% Z" u* L# Y4 B4 F
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:204 ~0 {% b {6 A% v7 L- t$ h" Z% |
这个不是这么比的吧。。。) B+ X. M8 Q. d$ c% T, X9 T
/ i& e+ z( N8 S$ z
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:462 ^# A( x% _. q! b7 c
有道理。6 F/ A }0 i- e$ Q; c; a: O
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20. g7 K: `8 E$ z
这个不是这么比的吧。。。9 X3 N: `- t1 m# v+ G3 |: B( T# n2 O; i
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:475 v! ]1 F1 L9 K- [8 o) o- Q
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58% ^. g+ P( X k; @9 j. [
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);& g) K P$ U- @! {* w3 d
std::vector < float > vec2(N);
float* b1 = new float[N];5 } ~7 d/ @4 T5 W& G! B# h a
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {/ V, C& B! P2 n% r
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {: s4 b* A% L3 `
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});/ N8 O5 X5 i {* m' N8 z7 o4 h
for (size_t jj = 0; jj < vec1.size(); jj++). y3 \! h0 n- b3 s& R$ q
{3 I' Z% x! D( a8 J, G0 N+ n
b1[jj] = vec1[jj];
}, \5 G; o# ^9 D2 T" o
, j7 |5 J; w3 ?& B
for (size_t jj = 0; jj < vec2.size(); jj++)+ c, W( Q# Z+ D Z: |( F
{
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);0 V: R F/ ]5 }0 L+ e) U% H
3 z L& V- O: l( |
//Method - 2 N=100000 237s
/*; j9 k3 m& b( f5 `2 C3 U5 W6 k
for (int jj = 0; jj < N ; jj++)
{. J0 I9 s( k' c! j+ B1 t, S) M9 X4 p
fresult += vec1[jj] * vec2[jj];% X: t( r J0 g" I1 D( U
}
*/
//Method - 3 N=100000 204s
/*3 I6 W& H4 }* _' o8 f
for (int jj = 0; jj < N; jj++)
{ D4 t/ S+ S% s0 ~ F
fresult += b1[jj] * b2[jj];) G/ {5 H( x; k* E- } p r
}
*/
//Method - 4 202s* M0 V/ b& K; p1 Y% J, u) ~; F& s
/*
for (int jj = 0; jj < N; jj++)
{2 p; Y4 V6 }& x3 s1 J3 H
}8 V/ b9 O3 @& ?" v2 d% f
*/
//comment out all methods, N=100000 202s ' l" m+ ~9 ]" u6 l
}" W% e0 O* h1 Y
6 F, ~. V* a7 B6 J9 k
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15, I+ u' J4 w. Y" C
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?0 ^/ p7 i% K& ]4 X
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:165 s) |& N6 a E- C4 y/ r" g
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL$ q1 a6 M/ R4 b' g" G
不和它 ...
/ _. J, N: Q" l5 x9 i雷达 发表于 2022-9-24 23:54! p) C a5 r s# P$ H) \+ b9 e
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。1 X- N' k& k6 j3 u( s, u1 r
做了两个 vector 和 两个 float *, 都长 1000000 O* {2 K0 \( W% m1 z4 w. P
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:394 {- e, Y6 I+ N. C( ^ B3 E9 n
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{+ z7 X0 X4 s' \7 S: R
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗 r+ @3 ?* v. @8 f6 ]9 r
7 E7 d; R3 d; Z1 D* w
...
。0 {! P6 o, `5 h/ E

* O2 D: ^* `6 r& i| 欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |