数值分析 发表于 2022-9-24 23:043 L9 K( u+ X% n% V5 \- I# M/ R$ b
拉下来?拉多少?$ P+ ~& j8 W+ ]- j
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:541 c, F; {$ T- `3 C
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:208 a: Y1 W( R: |
这个不是这么比的吧。。。9 C y. |/ h$ D0 G9 ~# A
j! G3 X- k: ^1 u$ C: u+ V
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58( ?( X/ B, ?- f0 [
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);, I7 M F* k: ?9 _4 S3 h) P! ~
float* b1 = new float[N];
float* b2 = new float[N];0 R+ m& d' K' M4 Z( q
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {' p, c# A# x; i) F m+ ?1 ^% d' v
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;% v6 F" _; ? j4 ^& P m$ I% L
});1 a) Q! w% m/ K$ r
std::generate(vec2.begin(), vec2.end(), []() {( d3 m$ C) T, a" @
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;: M% H, q% a, T. P
});
6 |! v6 z9 S1 X& f
for (size_t jj = 0; jj < vec1.size(); jj++)
{, |# x1 V$ U* N
b1[jj] = vec1[jj];
}' o+ v$ r& P* Q; p$ @
! f8 O" Y6 m7 q3 P: O
for (size_t jj = 0; jj < vec2.size(); jj++)
{1 [( l2 `- c; U& `: |! G
b2[jj] = vec2[jj];' I; @2 p& u" i& G
}. W( [. x4 \" ?, ~" L
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);% _2 R( V Z$ r
( |/ }" `& M6 [. Q2 q5 G: M
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}8 C6 l' n4 G6 p# O
*/0 I% J+ ]# U6 C/ H/ m
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)' w4 O& ~5 R' z1 o9 h
{
fresult += b1[jj] * b2[jj];7 M4 p7 g2 a: B. `
}
*/
- \3 H7 d+ P1 @ e0 _9 M u- g
//Method - 4 202s2 [9 z6 \4 B; U- X$ k$ D+ p
/*# G# j* {+ I, u) q1 t
for (int jj = 0; jj < N; jj++)/ B2 J; ?# b) V( L7 F- Y# [
{
, y# {% U/ O. }
}
*/, d3 B& h0 D8 R/ n) ?1 P2 I1 V8 u2 X
//comment out all methods, N=100000 202s " k4 X! R( w0 g8 h
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15 J4 D. @6 w8 s" c
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?, z4 P- z# y9 |$ \0 s9 }
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL0 M7 b( ?$ ?5 z: i4 Z& c5 ^
8 i% f5 E# _# t8 o
不和它 ...
( n& F3 d# I' t; u5 I, ?雷达 发表于 2022-9-24 23:54. i$ m5 Z: z' \1 e
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。3 I$ `4 }7 ]- `' ~1 l9 V
做了两个 vector 和 两个 float *, 都长 100000& {! F( J" @2 b: m1 I G( ~4 V
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?1 a' C+ ], s4 c1 z5 E
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:291 X) \- D( l: }( C5 m4 c! x0 p {
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
& l: q6 k X/ F% P+ t" D
...
。

+ K7 F, D+ B P8 n! b1 v| 欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |