数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB): |0 `% I9 [/ S* \% D$ C
{3 b1 Z, ]1 D, Y p0 w7 l* ^
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:208 a% F8 t- f' U& K" S" B( K" K, o
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:464 C( D7 `; P; N! J$ w& Q
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:202 v0 z( x% E: ?, A% G; u
这个不是这么比的吧。。。/ X! c1 \# D; M W9 Q- j- e
1 p# N& _& i2 ~5 K* U' e( g
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47' l) b% x* a4 f
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58$ M _. }* o/ Q/ f! ?/ L3 v% j
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];
( _: |) C2 ]8 x* ~2 z) E/ J; v
for (int j = 0; j < 6000; j++) u0 a, B. _: K7 S
{
std::generate(vec1.begin(), vec1.end(), []() {! u+ M" u5 X/ Z+ J; J
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});- H. N. [2 \! `) o4 w! Z
std::generate(vec2.begin(), vec2.end(), []() {5 ^& x2 K) ]7 a Q: G5 N
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});3 [1 r9 J7 I; a# g- j& V% K
for (size_t jj = 0; jj < vec1.size(); jj++)" b/ B7 t; J1 n3 \6 w; _
{, ]( g3 f/ g5 A8 J1 S: x4 {2 b5 w* H
b1[jj] = vec1[jj];& `4 |) E5 [7 A
}, Z$ W# E, a M. n
. X5 g: l/ [; g+ o% o
for (size_t jj = 0; jj < vec2.size(); jj++)
{" _8 t0 {' [$ L' f& v
b2[jj] = vec2[jj];
}
/ S! v; o, P* \) |
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0); T/ T: I A3 Z8 G
% |$ H3 F( S0 d9 X# a2 r
//Method - 2 N=100000 237s+ K% a; [% {& V
/*3 {* w3 e6 O6 t" d' b
for (int jj = 0; jj < N ; jj++), Y4 N" N0 j5 J# w
{
fresult += vec1[jj] * vec2[jj];
}
*/7 y6 q! a6 B" f
//Method - 3 N=100000 204s! {5 C. R {5 v
/*
for (int jj = 0; jj < N; jj++)
{3 X% e6 b2 ]! H$ d; l
fresult += b1[jj] * b2[jj];- l9 l8 @" f6 t
}
*/& O( E& {: F9 I, ]
/ k& k% F: R2 V+ k% ]# H4 j+ _' w7 S& G3 ?
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)
{
m7 d3 J7 |6 c' G
}+ r1 q+ V3 d' J# g/ a8 X- \0 K3 |
*/
//comment out all methods, N=100000 202s $ h6 U7 d7 o; j" K
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
0 u! U* z) X! G* x7 k
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:162 v) E- L" a/ t& u
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL, H6 C) H1 z3 ?- E
不和它 ...

雷达 发表于 2022-9-24 23:54) r1 F% H3 x1 L7 R/ r0 U6 y# b
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)- r D }) U& x( i3 V$ B& B- o3 {
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30; s2 Q9 Y" g* _* [4 s
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:548 k% |; G. E6 _0 {: t$ h
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。; X I! ~, m1 l

/ S S& ]/ G+ i, M b* e, z| 欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |