吐槽一把，都是钱闹的

喜欢喝冰茶 · 发表于 2015-7-16 23:14:54

straw 发表于 2015-7-15 21:01
我已经脱离这个行当满久了, 不知道现在的情况. 不知道你们需要超算是进行哪一步，图像识别这一步我不了解 ...

对于NGS来讲，HMM在aligment里是很少使用的，虽然在protein里用的相对多一些。至于blast这种东西，只在一些非常少的特别的project会用。无论是DNA－seq还是RNA－seq都需要genome assembly或者transcriptome assembly，这是一个NP－complete的问题，只不过相对于整个human genome来说，大约是1%－2%的量级。

冰蚁 · 发表于 2015-7-16 23:17:01

本帖最后由冰蚁于 2015-7-16 10:18 编辑

喜欢喝冰茶发表于 2015-7-16 10:05
该不是D.E.Shaw开发的那个可以直接硬件算氢键的用于MD Simulation的玩意儿吧。那东西确实挺快，不过用的 ...

好象是那个。我的意思是能不能借鉴那个思路，发展专用计算工具（包括数据专用存储格式之类），也许做几个层次算法模板，整个数据文件一次读入，模板一层层覆盖后直接出结果。

喜欢喝冰茶 · 发表于 2015-7-16 23:36:33

冰蚁发表于 2015-7-16 09:17
好象是那个。我的意思是能不能借鉴那个思路，发展专用计算工具（包括数据专用存储格式之类），也许做几个 ...

计算工具和文件格式都是专用的，不像一般的超算，用的商用云计算pipeline是可以编程的，它将cluster上的jobqueue系统和pipeline整合起来，自动的会根据pipeline和系统资源来调整，效率已经比较高了。至于用硬件来实现区域基因组的组装或者转路组的组装，这个现在看起来还是个挑战，不过如果能做出来的话，至少DNA－seq和RNA－seq会大大加速。

冰蚁 · 发表于 2015-7-17 00:13:40

本帖最后由冰蚁于 2015-7-16 11:18 编辑

喜欢喝冰茶发表于 2015-7-16 10:36
计算工具和文件格式都是专用的，不像一般的超算，用的商用云计算pipeline是可以编程的，它将cluster上的j ...

直观感觉就是开发一些 asic 芯片的事情。做出来了，也许就是几个目前手持设备大小的东西。瞎说说。

eshark · 发表于 2015-7-17 13:11:08

喜欢喝冰茶发表于 2015-7-16 23:10
文件大不假，连续数据读写不应该算多。这个问题不是硬盘快不快的问题，而是算法的问题，那玩意是个NP com ...

除非你的内存可以一次性load所有数据，并且中间结果也能在内存里hold住，否则一般优化后台存储可以提高30%-50%的应用性能。比较相对于cpu的内存访问，机械磁盘的响应速度慢了几百倍。

水风 · 发表于 2015-7-17 19:08:52

一看就是算法问题。商业的云计算根本就不是干这个的。你们不知道也就罢了，你们头不知道就是个奇葩了。

喜欢喝冰茶 · 发表于 2015-7-17 22:21:08

本帖最后由喜欢喝冰茶于 2015-7-17 10:27 编辑

水风发表于 2015-7-17 05:08
一看就是算法问题。商业的云计算根本就不是干这个的。你们不知道也就罢了，你们头不知道就是个奇葩了。 ...

商业云计算只是提供个平台而已，并不都是AWS模式。专用的云计算平台多了去了，而且都是针对性的。算法问题？嘿嘿，谁都知道是算法问题，这么多年了，您不妨告诉我哪里有更好的。至于懂不懂，只有呵呵了。

喜欢喝冰茶 · 发表于 2015-7-17 22:21:47

eshark 发表于 2015-7-16 23:11
除非你的内存可以一次性load所有数据，并且中间结果也能在内存里hold住，否则一般优化后台存储可以提高30 ...

我们有的确实是把整个基因组调进内存的，跑那个玩意儿，至少32G吧

水风 · 发表于 2015-7-18 03:03:04

喜欢喝冰茶发表于 2015-7-17 22:21
商业云计算只是提供个平台而已，并不都是AWS模式。专用的云计算平台多了去了，而且都是针对性的。算法问 ...

我当年跟人合作过，不过我们那个时候没有这么牛，做不到全基因组。就测了一条最短的染色体的长臂。
我不是搞计算方面的，是测序部分的。具体的算法细节，我也不清楚。但算法问题也是吐糟了好久，到头也没解决掉。我们最后的法子是严重偷工减料版的。就是只检测已知的基因的编码序列，而且不是全部，只是已经报道过的那些点突变和缺失突变。这就把工作量减少了3－4个数量级，总算是能够让计算能够在一天内完成了。然后随机检测了十几个基因的全序列。也就应付过去了。反正最后发的文章好像还很不错。

这个就跟您一说。这个策略肯定是能够解决您目前的问题的。但严重缩水。

您在国内阿，也难怪了。呵呵。

喜欢喝冰茶 · 发表于 2015-7-18 05:21:32

本帖最后由喜欢喝冰茶于 2015-7-17 15:22 编辑

水风发表于 2015-7-17 13:03
我当年跟人合作过，不过我们那个时候没有这么牛，做不到全基因组。就测了一条最短的染色体的长臂。
我不 ...

不知道您当时用的什么方式，sanger？08年那会儿NGS是还不很完善，无论是实验还是计算部分。所以那会儿也就Chip－Seq还能用。不过这东西一日千里的发展，很多曾经接触过的还想当然的以为瓶颈在alignment上，这东西根本就不是个事儿，NIH前两年就不再支持这类工具，因为太多。一个全基因组大约1个Billion对的reads，我们六个node的系统五个小时搞定，有什么可抱怨的。至于Mutants的准确性，至少 Whole Exome Seq和NIST的标准以及SNP array两个平台的重合度是达到诊断量级的，要不自去年下半年开始，TCGA的文章就已经开始对临床提出分型建议了。其实我们的问题有两个，一个简单些，因为pipeline是可以在任何一点重启的，就必须保留太多的中间文件，一个样本大约2个多TB，把node的硬盘用完了，另一个比较麻烦。现在的DNA和RNAseq都需要assembly，这个才是要了命的。这个云计算系统还是非常高效的，六个node的系统，处理六个200x－300x的WES数据，四五个小时，进去fastq，出来是annotated文件了。

别小看国内，一年前新搞得的基于CUDA的variants detection速度提高了好多，把按天算的搞成按小时算，可以说是个巨大的进步，倒真想回国内用用他们的东西。

水风 · 发表于 2015-7-18 10:18:48

喜欢喝冰茶发表于 2015-7-18 05:21
不知道您当时用的什么方式，sanger？08年那会儿NGS是还不很完善，无论是实验还是计算部分。所以那会儿也 ...

是自动测序仪，应该是sanger原理的。当时还没有上市的型号，我老板人头熟，公司送给我们免费试用的。当时chip才刚有文章出来。你测个基因没问题，但是要测染色体，那远远不够。
看起来assemble的问题始终没有解决阿。但重复序列这个的确也难为你们了。当时人类基因组都99.9%了。剩下的重复序列就是对不上。那可是集中了全球最顶尖的科学家，几千号人。好久没有追踪这个了，不知道到了100%了没有。也不知道他们最后的算法是什么。
我可没小瞧国内。他们当年把水稻基因组发表，我就知道国内已经至少在这方面赶上来了。据说最关键的assemble是用的北大生科院党委书记的策略。当时是眼镜碎了一地。没想到一个政工干部，还这么牛。

我是偏生物功能这一派的。重复序列里面，除非大规模的片段插入或者缺失，包含的影响生物功能的变化很少。所以，当年我是力主简化的。为了这0.1%的可能突变，去占用了99.9%的计算资源，在我看来完全是浪费。不过时代不同了，我也早不干这个了，或许行业标准已经变了。

水风 · 发表于 2015-7-18 10:19:02

喜欢喝冰茶发表于 2015-7-18 05:21
不知道您当时用的什么方式，sanger？08年那会儿NGS是还不很完善，无论是实验还是计算部分。所以那会儿也 ...

是自动测序仪，应该是sanger原理的。当时还没有上市的型号，我老板人头熟，公司送给我们免费试用的。当时chip才刚有文章出来。你测个基因没问题，但是要测染色体，那远远不够。
看起来assemble的问题始终没有解决阿。但重复序列这个的确也难为你们了。当时人类基因组都99.9%了。剩下的重复序列就是对不上。那可是集中了全球最顶尖的科学家，几千号人。好久没有追踪这个了，不知道到了100%了没有。也不知道他们最后的算法是什么。
我可没小瞧国内。他们当年把水稻基因组发表，我就知道国内已经至少在这方面赶上来了。据说最关键的assemble是用的北大生科院党委书记的策略。当时是眼镜碎了一地。没想到一个政工干部，还这么牛。

我是偏生物功能这一派的。重复序列里面，除非大规模的片段插入或者缺失，包含的影响生物功能的变化很少。所以，当年我是力主简化的。为了这0.1%的可能突变，去占用了99.9%的计算资源，在我看来完全是浪费。不过时代不同了，我也早不干这个了，或许行业标准已经变了。

喜欢喝冰茶 · 发表于 2015-7-18 12:39:28

水风发表于 2015-7-17 20:18
是自动测序仪，应该是sanger原理的。当时还没有上市的型号，我老板人头熟，公司送给我们免费试用的。当时 ...

严格意义上，第二代大规模以荧光为基础的测序仪都可以说是sanger原理的，问题是有多深，有多快，准确率如何，你那个可能还不算商用的NGS，公认的NGS大规模商用在2007年，现在常用的数据分析方法大约在08，09年开始出现。至于重复片段，现在有的测序仪可以产生几千base的片段。但是就mutant而言，重复片段的影响非常小，事实上做序列的大部分人并没有特别在乎重复片段，除非做植物。呵呵，diagnosis可比screening要求苛刻的多得多。

assembly所使用的计算机算法是NP－complete的，有点像做神经的几乎对高级神经活动也没什么好的办法一样。至于DNA和RNA seq的assembly并不需要组装完整的基因组，因为这两种属于resequencing，大部分reads都是相对没什么错误或者很少错误的。只有那些带有相对多错误的部分才需要assembly，问题在于如果只有一两百base的片段，谁也不知道它是来自于带有很多突变的片段还是另外一个相对少的地方，这不是算法能解决的。

我原来也是做生物出身的，后来觉得很多时候也是忽悠，还不如作点实际的东西，至少计算机算法和数学还更靠谱些，当然统计这东西里面trick很多。做这一行比较厉害的基本上都是生物出身的，加上不错计算training的。让一个医生和一个计算科学的人聊聊，估计鸡同鸭讲了。

水风 · 发表于 2015-7-20 04:07:08

喜欢喝冰茶发表于 2015-7-18 12:39
严格意义上，第二代大规模以荧光为基础的测序仪都可以说是sanger原理的，问题是有多深，有多快，准确率如 ...

你还真是干这行的老手了。
我那篇文章是07年初发的，工作主要是05－06年做的。因为是合作，我过后就转做别的了。对于测序行业后来的发展就完全摸不着头脑了。

但是我用基因测序方法检测病人突变的工作，做了很长时间。所以，你们的基本操作原理估计还是那套。一般说来，大家都是从已经发表过的有突变的基因开始找起，先看有没有插入或者缺失，有些时候单基因删除也会造成单基因功能性不足，从而引发问题。没有的话，就看编码序列，编码没有问题，就看剪切，尤其是选择性剪切的。再没有，看RNA前后的非编码序列。最后看该基因表达的水平。当年就是拿病理组织切块做northern。现在手段多了去了。这些都找过了，没有的话，就看同一信号传导链上的基因或者功能伙伴，然后是结合蛋白。基本上跟病理相关的这些别人都做过了。去找出来一一看过。最后什么都没发现的话，就打入另册。

你们所做的，无非就是看到RNA的非编码序列。有可能连选择性剪切后各种异切体的丰度看一看，不知道你们能不能看表达，但是后面的步骤，不是测序就能够解决了的。必须要有生物学实验，最好是老鼠的动物模型，当然，一个小突变，如果很重要的话就是一篇不小的文章了。

所以，我一直认为，纯粹的测序检测，只能看已经知道突变的基因。估计你们就是发现了相关的新基因，都不会报道的。因为这必须要有生物学证据才行。这么说起来，你们的全基因组测序，其实也就是测个几百个就足够了。人类的25000多基因，你们根本就是测了也是浪费。

生物里面当然忽悠是很多，但要走下去，还是要靠真本事。当然忽悠也是本事的一部分。你是生物出身，好好干吧。我看好你阿。说不定啥时候，我们就有个合作了。

冰蚁 · 发表于 2015-8-4 00:45:21

建议写科普文吧～～～

ekid · 发表于 2015-8-4 10:21:40

冰蚁发表于 2015-8-4 00:45
建议写科普文吧～～～

支持科普！

		自动登录	找回密码
密码			注册

[其他] 吐槽一把，都是钱闹的