爱吱声

标题: 美国最好的工作 [打印本页]

作者: 晨枫 时间: 2016-1-25 00:21
标题: 美国最好的工作
拼不了爹的话，只有自己找工作。在美国，最好/赚钱最多的工作是什么呢？

玩大数据的（老酒自觉点，发红包，不要等到大家砸上门了！）排第一，搞税务的（大概是公司里帮逃税的，而不是税务局里管收税的？）排第二。但有一大堆莫名其妙的头衔，云山雾罩的，比如Solution Architect、Engagement Manager、Strategy Manager，UX Designer，这些是什么东东？Product Marketing Manager和Marketing Manager还是两个不同的东西，莫非后面那个是Service Marketing Manager？但现在Corporate Talk里Product不再只是物理的实物，Service也通常作为Product兜售的呀！

上一个图应该是最有发展潜力的工作，这个是赚钱最多的。再一次呼吁@煮酒正熟

Data Scientist
Job Openings 1,736
Median Base Salary $116,840
Career Opportunity 4.1
Job Score 4.7

Tax Manager
Job Openings 1,574
Median Base Salary $108,000
Career Opportunity 3.9
Job Score 4.7

Solutions Architect（还是不知道这是干什么的）
Job Openings 2,906
Median Base Salary $119,500
Career Opportunity 3.5
Job Score 4.6

Engagement Manager（公司政委，管人心的？）
Job Openings 1,356
Median Base Salary $125,000
Career Opportunity 3.8
Job Score 4.6

HR Manager（管开人的工作那么好？）
Job Openings 3,468
Median Base Salary $85,000
Career Opportunity 3.7
Job Score 4.6

Physician Assistant（这是医生助手？那么高？）
Job Openings 3,364
Median Base Salary $97,000
Career Opportunity 3.5
Job Score 4.6

Product Manager
Job Openings 6,607
Median Base Salary $106,680
Career Opportunity 3.3
Job Score 4.5

Software Engineer
Job Openings 49,270
Median Base Salary $95,000
Career Opportunity 3.3
Job Score 4.5

Audit Manager（查账的，人见人怕，人见人厌，这工作pay再好，我也不去）
Job Openings 1,001
Median Base Salary $95,000
Career Opportunity 3.9
Job Score 4.5

最差的工作：酒店管理、财务出纳、卖保险的、记者！没想到，美国记者也这么惨。不过现在“公民记者”越来越发达，专业记者真有点走投无路的感觉。不过记者至少比卖保险的强哈

换到具体公司的话，Google不是最好的，只是较好的，Airbnb竟然是最好的公司，这大概指公司总部？没想到Esatman Chemical排名这么高，这是原来做可达胶卷的公司。不过啊不过，大苹果在哪里？大苹果在哪里？大苹果在哪里？

作者: 王不留 时间: 2016-1-25 00:53
本帖最后由王不留于 2016-1-25 00:55 编辑

不准，不准。。。
scientist排不上最好的list很正常。。
居然在最差的列表里也没有！！。。
这不科学。。。
还有比搞学术的更惨的吗？

1191233050_n.jpg (176.76 KB, 下载次数: 51)

作者: holycow 时间: 2016-1-25 01:46
晨大小白了，UX就是User Interface。Solution Architect就是老兵他老板。

还有，工程咨询公司来接你们生意的时候，主事的头衔不是Engagement Manager吗？这个就是专管和客户接战的，见敌必战哈

作者: 晨枫 时间: 2016-1-25 01:47

王不留发表于 2016-1-24 10:53
不准，不准。。。
scientist排不上最好的list很正常。。
居然在最差的列表里也没有！！。。

scientist比酒店管理和记者还是强啦。

作者: 煮酒正熟 时间: 2016-1-25 01:47
一脚门里一脚门外的也算？

作者: 晨枫 时间: 2016-1-25 01:48

煮酒正熟发表于 2016-1-24 11:47
一脚门里一脚门外的也算？

怎么不算？算！别废话了，发红包吧！

作者: 煮酒正熟 时间: 2016-1-25 01:49

晨枫发表于 2016-1-24 12:48
怎么不算？算！别废话了，发红包吧！

半个数据科学家只有人家一半儿的工资，和各位同学一比简直是弱爆了

作者: 晨枫 时间: 2016-1-25 01:49

holycow 发表于 2016-1-24 11:46
晨大小白了，UX就是User Interface。Solution Architect就是老兵他老板。

还有，工程咨询公司来接你们生意 ...

埋头拉车惯了，对这些云里雾里的头衔，我总是不甚了了。

作者: 晨枫 时间: 2016-1-25 01:50

煮酒正熟发表于 2016-1-24 11:49
半个数据科学家只有人家一半儿的工资，和各位同学一比简直是弱爆了 ...

那就和我等普罗大众比吧，我们连垫底的资格都没有哦。

作者: fcboliver 时间: 2016-1-25 02:20
你以为老酒家一屋子的路易13家俱哪来的？

作者: 煮酒正熟 时间: 2016-1-25 02:30

fcboliver 发表于 2016-1-24 13:20
你以为老酒家一屋子的路易13家俱哪来的？

你就跟着起哄吧

作者: holycow 时间: 2016-1-25 02:40

晨枫发表于 2016-1-24 09:47
scientist比酒店管理和记者还是强啦。

car dealer居然榜上无名

作者: 煮酒正熟 时间: 2016-1-25 03:10
Product Marketing Manager 与 Marketing Manager，哦，还有Brand (Management) Manager，Marketing and Communication Manager, Regional Marketing Manager, Marketing Campaign Manager, Marketing Analytics Manager, Database Marketing Manager, Digital Marketing Manager, Channel Marketing Manager, Media (Marketing) Manager, Marketing Strategy Manager, Market Research Manager, CRM Manager... 甚至再加上 Product Manager，这些头衔，都属于营销范畴。有人可能会对俺把Product Manager灿贺进来表示反对，其实从传统对营销的4P定义来看，产品管理也属于营销。

之所以有这么多名目繁多的头衔，除了当代营销的三大要素 --- 产品，市场，数据，之外，主要原因还是各行业，各公司的商战和传统运作方式有所不同，也就是说 the way they compete in the market place, and the way they execute their plan/strategy and operate their business，有所不同。

先说第一点。

product manager, pricing manager, product marketing manager这些东西虽然也包括市场和数据，但其基本出发点是产品。

然后，Marketing Strategy Manager, Marketing and Communication Manager, Regional and Sales Marketing Manager, Brand Manager, Media Manager... 这些虽然和数据甚至产品都有或多或少的关联，但其基本出发点是市场。

最后，DB Marketing Manager, Marketing Analytics Manager, CRM Manager, Digital Marketing Manager, 还有Market Research Manager 这些，虽然也会与市场和产品有交集，但其基本出发点是数据，和分析研究。

还有些头衔，由于各行业各公司运作方式有所不同，归口也不太一样。比如 channel manager，可以是没多少技术能力的relation management individual，也可以是吃技术和数据分析饭的。关键看各公司肿么定义channel...

回到Product Marketing Manager与Marketing Manager的问题上，前者的出发点是产品，通常是在一个主要基于市场需求做产品发展和推广的行业或公司里面（苹果这种闭门造车，造出来你们就必须喜欢的强盗式公司，对市场需求比较藐视，但大多数公司没有苹果这么牛掰，还是会极其重视倾听市场的声音），其位置介于 Product Management 和 Marketing and Sales之间。Marketing Manager的出发点是市场，责任范围非常宽泛，包括决定如何使用营销预算，如何与更前段的Regional and Sales Manager，以及“参谋部”的营销战役与分析部门协同，做营销战役；举办具有营销意义的活动(seminar, conference, infosession...），同时也大多要和printing house, gift company等vendor打交道，还要操心Communication部分，比如营销战役的实体信函电子邮件该怎么写，大型活动有什么tagline...

作者: holycow 时间: 2016-1-25 03:22

晨枫发表于 2016-1-24 09:49
埋头拉车惯了，对这些云里雾里的头衔，我总是不甚了了。

更正一下，UX是User eXperience, 手快写错了

作者: 老马丁 时间: 2016-1-25 03:42
本帖最后由老马丁于 2016-1-25 03:46 编辑

这些工作不是商学院就是IT。Come and go. 我知道加拿大起码10所大学正打算设置大数据的硕士。过几年又大白菜了。

作者: 晨枫 时间: 2016-1-25 04:37

holycow 发表于 2016-1-24 12:40
car dealer居然榜上无名

那不算professional job，不算，否则retail associate也也算进去啦。

作者: 小木 时间: 2016-1-25 13:12
<----- Guest Service Manager

作者: 光头佬 时间: 2016-1-25 16:40
请问楼主，文中提到的薪水是年薪还是月薪？难道花街那些交易员不在列表中吗？

作者: 蟹邪邪 时间: 2016-1-25 17:02

作者: martian 时间: 2016-1-25 20:06
UX Designer就是设计网站页面的，其他滴不懂

作者: 修业 时间: 2016-1-25 20:58
做过美股日内交易员，入行一年比前三名收入高很多

作者: 一瞬无尽 时间: 2016-1-25 22:21
苹果不是在中间名字短的那部分里，twitter上面么

作者: 老兵帅客 时间: 2016-1-25 22:22

holycow 发表于 2016-1-24 12:46
晨大小白了，UX就是User Interface。Solution Architect就是老兵他老板。

还有，工程咨询公司来接你们生意 ...

瞎说，我老板可不是什么Solution Architect，人家是director。至于Solution Architect嘛，我见过的加拿大五大银行的，就是作为junior programmer还不够格，但是嘴巴还行，于是就去卖嘴巴的角色。

说白了，这些人不靠技术，靠嘴巴活着。

作者: 老兵帅客 时间: 2016-1-25 22:24

holycow 发表于 2016-1-24 14:22
更正一下，UX是User eXperience, 手快写错了

这个位置听起来很高大上的，其实就是拿着个apple机器做界面设计的。

作者: 老兵帅客 时间: 2016-1-25 22:26

老马丁发表于 2016-1-24 14:42
这些工作不是商学院就是IT。Come and go. 我知道加拿大起码10所大学正打算设置大数据的硕士。过几年又大白 ...

已经大白菜了，俺们土狼屯的小公司里面，一堆的big data specialist，张嘴一聊，连基本的数据库概念都没有，一帮子雏儿。

作者: 老兵帅客 时间: 2016-1-25 22:28

晨枫发表于 2016-1-24 15:37
那不算professional job，不算，否则retail associate也也算进去啦。

不许侮辱人，要知道俺们土狼屯的job agent，我可是见过正宗加拿大MBA学位拥有者，你敢说那不是professional job？

作者: 晨枫 时间: 2016-1-25 22:39

修业发表于 2016-1-25 06:58
做过美股日内交易员，入行一年比前三名收入高很多

这就不用多提醒了吧？红包呢？

作者: holycow 时间: 2016-1-25 23:35

老兵帅客发表于 2016-1-25 06:22
瞎说，我老板可不是什么Solution Architect，人家是director。至于Solution Architect嘛，我见过的加拿大 ...

你老板以director的title，整天干Solution Architect的事，而且还干得不怎么样

作者: 老兵帅客 时间: 2016-1-25 23:41

holycow 发表于 2016-1-25 10:35
你老板以director的title，整天干Solution Architect的事，而且还干得不怎么样 ...

他那个叫什么Solution Architect，整天就是处理鸡零狗碎的杂事，整个就是一个打杂的。

说白了，Solution Architect是那种专业公司才有的的位置，具体人员水平另说。而我们公司，至少是我们部门，就是个作坊，完全没有专业的样子。

作者: erha 时间: 2016-1-25 23:59
大家感觉这些数据准确吗？

作者: 冰蚁 时间: 2016-1-26 00:13

光头佬发表于 2016-1-25 03:40
请问楼主，文中提到的薪水是年薪还是月薪？难道花街那些交易员不在列表中吗？ ...

trader 年薪不见得很高，也许就8万，10万刀一年。但是奖金和其它收入高。那张表里就是年薪 (salary)，不是总的年收入 (income)。

作者: tanis 时间: 2016-1-26 04:41
长见识了～往中位数努力。。。

作者: 煮酒正熟 时间: 2016-1-26 07:08

老兵帅客发表于 2016-1-25 09:26
已经大白菜了，俺们土狼屯的小公司里面，一堆的big data specialist，张嘴一聊，连基本的数据库概念都没 ...

这个问题要辩证地来看，发展地来看。不过在开侃之前俺先表个态：俺跟你是一伙儿的，根子在数据库和数据方面；那帮小孩子的根子在所谓的大数据，统计学，和机器学习 machine learning，数据不是他们的强项。但是，我很痛苦地承认，他们的技能，虽然因为他们对数据不熟而派不上用场，但却极受市场追捧。这些小孩子的第一步是找到一份做数据分析的工作，大公司小公司关系不大。然后在里面摸爬滚打两年，这两年里面会被逼着，捏着鼻子去扣数据库，去钻数据，去忍受公司老鸟儿们的白眼儿和轻视... 两年过后，他们对数据仍然是一知半解，但足够他们在应聘时连哄带骗地一通神哨儿了。他们“大数据”的技术底子，加上他们自称的懂数据，以及他们在公司里摸爬滚打两年后磨练出来的程度不同的圆滑和职业精神，足以让他们获得一份六位数或者高五位的薪资了。接下来就是拿着这份高薪继续摸爬滚打，也许会因为能力不足被赶走，但这些孩子对数据的熟悉度肯定在增加，对公司的人事和运作的认知也在提高。这些对其他专业的孩子也是一样，但这些孩子和其他专业的孩子相比的优势就是他们的大数据技能。

再过5年或10年，大学里面批量生产出来的大数据毕业生会蜂拥进入职场，但那个时候，现在这批孩子大多数已经对数据有了足够的浸淫，也因此在公司里站稳了脚跟，将来那批孩子对他们冲击有限。另一方面，霉果目前对大数据的需求呈幂指数增长，大部分公司可以access海量数据，却完全是因为招不到affordable的大数据人才，才不得不scale back on their analytics needs 的。一旦市场上出现大量大数据人才，我的猜测是，底薪的水平不会降低，但公司招募的大数据分析员的数量会激增。

所以象俺这样的，现在也只能吭哧吭哧地跟着学python, spark, H2O等等这些大数据新玩意儿

作者: sylvia 时间: 2016-1-26 07:48

煮酒正熟发表于 2016-1-25 18:08
这个问题要辩证地来看，发展地来看。不过在开侃之前俺先表个态：俺跟你是一伙儿的，根子在数据库和数据方 ...

您７位数？

作者: 煮酒正熟 时间: 2016-1-26 08:35

sylvia 发表于 2016-1-25 18:48
您７位数？

兔美女肿么糊涂啦？俺酒味数啊

作者: 老兵帅客 时间: 2016-1-26 08:42

煮酒正熟发表于 2016-1-25 18:08
这个问题要辩证地来看，发展地来看。不过在开侃之前俺先表个态：俺跟你是一伙儿的，根子在数据库和数据方 ...

别着急，您还记得当年的web developer吧，也就是会写点页面那玩意儿的，也能挣大钱，不过没几年而已。那个泡儿一破，全回大街上去了。

也许你们美国牛叉，我们这里的这类大牛们，一般都在小公司里，那小公司破的连像样的办公室都租不起，更不要说小鸽子了，他们在那里做full time。

这个世界我只相信一件事，你的工具越好用，你的薪水越低。这点.net已经充分证明了，另外一个例子就是vb。

所以俺还是继续做俺的后端。

作者: 煮酒正熟 时间: 2016-1-26 09:42
本帖最后由煮酒正熟于 2016-1-25 20:44 编辑

老兵帅客发表于 2016-1-25 19:42
别着急，您还记得当年的web developer吧，也就是会写点页面那玩意儿的，也能挣大钱，不过没几年而已。那 ...

大数据和当年的web developer很不一样。web developer有吮马根基啊？纯属花拳绣腿。今天的大数据则是有根基的，其根基有两个，一是数据，一是统计学和机器学习。在具备必要资质的前提下，前者需要多年浸淫（好比金庸笔下的内功），后者则需要formal training（类似金庸笔下的奇异招式比如斗转星移，凌波微步，打狗棒法这些）。那帮刚毕业的小孩子属于有过人的招式但内功是零。一旦这些孩子在公司里混个两三年，有了点儿内功基础，他们的过人招式就能得到一定程度的发挥，就能打出很眩目的武功来，就能吸引下一个师父（公司）的注意力，有机会进一步修炼和提高他们的内力。这些孩子的目标是，5-10年之内成为名副其实的数据科学家，data scientist. 吮马是数据科学家？就目前来说，数据科学家有两个主要来源，一是做数据和数据库的，就是data engineer，另一个是玩统计学的，也就是statistician. 数据工程师学了统计学，学到一定深度，就摇身一变成为数据科学家；统计学家本身就有个“家”字，但不懂数据，所以这帮家伙们要学数据，学到一定深度，也就成为数据科学家了。所以有人开玩笑说，数据科学家就是那些在统计学家里面最懂数据的，和在数据工程师里面最懂统计学的家伙们～

再说大数据里面的这些技法，比如machine learning，还有text mining。这些东西非常powerful，但并不那么好用，或者说至少不会比传统统计学技法和工具（比如SPSS, Matlab, SAS) 更好用。其实这些新东西因为是open source的，应该说比传统那些更难用些。之所以有些人说它们好用，完全是因为针对今日互联网上新出现的一系列data and business challenges，这些新技法有能力去应对，去解决，而传统的structured data和分析工具（比如我赖以为生的SAS）在这些新的挑战面前完全是束手无策！所以准确地说，不是这些新工具新技法更容易学习和使用，而是它们更厉害更powerful. 一个例子就是，亚马逊的数据系统里面有海量的reviews，那帮孩子（当然是对数据有过两三年浸淫的）就有本事develop a machine learning model to detect 来自中国的卖假货的商家，还有本事针对这些unstructured的数据做text mining，获得consumer sentiment方面的洞见，这样可以skip掉昂贵又天然biased不靠谱儿的survey questionnaire, focus group等等传统的市场研究手段，而基于实时的，更少偏见的，样本量=总数量（无须抽样）的数据获取更富价值的商业洞见。而这一切，对于传统的relational database and structured data，以及传统的统计学和分析手段来说，完全是不可想象的。之所以我觉得这个东西未来的需求极大，就是因为未来的商业行为和社交活动，主要都是依托网络发生进行，而人们在网上的商业行为和社交活动所蕴含的数据，于无数商家而言，都是无价之宝。

作者: 老兵帅客 时间: 2016-1-26 10:10

煮酒正熟发表于 2016-1-25 20:42
大数据和当年的web developer很不一样。web developer有吮马根基啊？纯属花拳绣腿。今天的大数据则是有根 ...

不要那么贬低web developer，要是没有底层那些支持，例如多线程、javascript的底层东西，还有dreamweaver这类好用的工具，谁敢说他们不是新时代的unix admin和oracle dba?问题是现在oracle下面那么多的好工具，数据库管理在很大程度上成了GUI游戏，于是现在的oracle dba就成了不是能不能，而是有没有那个权限的问题。

这个趋势，大数据玩家也一样会面临的，而且很快。这里的关键在于，你是那个写算法的，还是搭积木的，后者怎么玩都是那么回事。

给你个例子吧，当然不是大数据方面的。你知道残疾人对屏幕上的东西有特殊的要求，于是政府为了他们方便做了一些相应的规定，也就是网页要达到什么标准。这个东西早先还需要人工来构造，但是很快就有了自动的东西来分析你网站的各个网页，找出存在的问题。然后同样很快，修改这些发现的问题使之满足要求的东西出来了。当然了，能自动修改的软件是要钱的，能自动发现的有免费的，但是那个距离并没有多大。

我这个案例的意思是，只要技术基础有了，上面的应用就会变得很简单，于是靠这个吃饭的就会开始骂娘。而万恶的资本主义存在的问题就是，总是会有聪明蛋把技术基础给弄出来，于是就毁了大家的发财机会。

所以啊，这个领域的发财机会其实就是现在这几年，趁着工具还没成熟，赶紧换工作，靠嘴巴多忽悠些钱来。等工具成熟了，机会也就过去了。我绝对相信这个市场很大，但是再大也没有数据库程序员那个市场大。当年的原始数据库使得自己写ISAM还有些机会，现在谁还干这个？都成了SQL奴隶了。

作者: 煮酒正熟 时间: 2016-1-26 10:44

老兵帅客发表于 2016-1-25 21:10
不要那么贬低web developer，要是没有底层那些支持，例如多线程、javascript的底层东西，还有dreamweaver ...

老兵对大数据的了解似乎有待加深啊... 数据科学家的工作，说到底，有较大艺术成份。诚然，拉数据(data query)这个是死的，但即使是最死的这一块，我也看不出十年之内会被自动化的可能，因为你首先要确定要调什么数据，只有当你确定了要调什么之后，调数据这个动作才是个死动作，可问题是要确定调什么数据需要人类智能，其根源是对商业问题的理解和翻译（也就是把商业问题转换成数据问题）。这一块艺术性比较小。但数据整理和建模则都更富于艺术创造性。10年之后也许会有人写出程序来，实现调数据，整理数据，和建模一体化，但这种机械化的东西做出来的东西，是无法和经验丰富的数据科学家相比的。再未来，20年，30年之后，那个时候也许高智能机器人都出来了，也许能够替代大部分数据科学家的工作，但造价恐怕还是极其昂贵的。再过若干年，造价下来了，全面取代数据科学家了，不过真到了那个时候，我们所处的社会里面有很多工作都会被智能机器人所取代了。于是这个问题就变成一个社会问题甚至哲学问题了，而不再是关于大数据就业前景的问题了。所以还是表说辣么远了。反正十年的时间一晃就过，到时候咱们再回来看看今天的讨论吧

作者: tanis 时间: 2016-1-26 11:00

煮酒正熟发表于 2016-1-26 09:42
大数据和当年的web developer很不一样。web developer有吮马根基啊？纯属花拳绣腿。今天的大数据则是有根 ...

果然不同的人从不同的角度啊～哈哈哈～我对大数据持谨慎乐观的态度。并不觉得会有井喷式的推动。

老酒还记得专家系统和后来的神经网络么:）

作者: 老兵帅客 时间: 2016-1-26 11:01
本帖最后由老兵帅客于 2016-1-25 22:09 编辑

煮酒正熟发表于 2016-1-25 21:44
老兵对大数据的了解似乎有待加深啊... 数据科学家的工作，说到底，有较大艺术成份。诚然，拉数据(data qu ...

刚才我抽时间看了一下大数据相关的事情，感觉就是云计算、分布计算基础上的data mining，而data mining的关键在于算法，也就是通过特定的算法找出data pattern来。云计算、分布计算本身没多少大数据从业人员的空间，那本质上不过是硬件投资。个人能做的不过是基于这样的硬件环境写分布式应用程序，但是核心的算法是关键，也就是你所说的建模。

这里的问题在于有多少人能做到那个高度，我是不相信人人生来平等这种政治正确口号的，而是相信机器做的比绝大多数从业人员做的都要好。这点很残酷，但却是现实，微软和oracle都在这方面下功夫。因此，现在的这个大数据热潮本质上很像当年的网络计算机，听起来很美，现实中则只是网络打印机控制器罢了。

我相信你所说的艺术这个词汇，正是这个问题使得很多人没办法从技术热潮里获利。事实上，我是相信软件开发也是艺术一种这种似是而非的想法的。一个最简单例子，我在这边的一家公司所开发的那个代码产生器，说好听点叫做编译器，在我离开以后就没人能维护。原因不复杂，他们找不到能明白我那个东西的模型的主儿，虽然我已经写好了足够的文档。编译器这个东西，任何CS本科念的还行的应该能明白它的工作模型，我待过的那家公司不缺这方面的动物，但就是找不出一头来搞明白我的程序。对了，那家公司的软件人员有上千呢，不乏科班出身的。

正是这种智力上的差距使得很多人的投资是没有意义的。

作者: 晨枫 时间: 2016-1-26 11:09
本帖最后由晨枫于 2016-1-25 21:11 编辑

煮酒正熟发表于 2016-1-25 19:42
大数据和当年的web developer很不一样。web developer有吮马根基啊？纯属花拳绣腿。今天的大数据则是有根 ...

统计我学过点，机器学习也能蒙个大概，Access也玩过一点点，但老酒给说说吧，这个数据到底是怎么回事？

作者: 老兵帅客 时间: 2016-1-26 11:10

晨枫发表于 2016-1-25 22:09
统计我学过点，机器学习也能蒙哥大概，但老酒给说说吧，这个数据到底是怎么回事？ ...

简单地讲就是data mining，不过是分布式的。这里的关键是建模，然后用算法找出data pattern来。

作者: 晨枫 时间: 2016-1-26 11:13

老兵帅客发表于 2016-1-25 21:10
简单地讲就是data mining，不过是分布式的。这里的关键是建模，然后用算法找出data pattern来。 ...

那怎么解决数据的相关性和causality问题呢？

作者: 老兵帅客 时间: 2016-1-26 11:17

晨枫发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢？

我以前做过一些data mining方面的事情，通过适当的建模和数据选取可以有效地减少你所说的问题，但是代价则是如何判定这些，这就是老酒所说的艺术了。

作者: holycow 时间: 2016-1-26 11:32

晨枫发表于 2016-1-25 19:13
那怎么解决数据的相关性和causality问题呢？

模型只解决相关性，不解决因果性。解决因果性的是人脑袋

作者: 煮酒正熟 时间: 2016-1-26 11:35

老兵帅客发表于 2016-1-25 22:01
刚才我抽时间看了一下大数据相关的事情，感觉就是云计算、分布计算基础上的data mining，而data mining的 ...

软件开发当然是艺术性的活动（虽然我没做过）。

你第一段说的那些，不错，都是大数据范畴，而且你说的也都对，云计算, mapreduce这些属于硬件范畴，很多公司（比如我们这里）为了解答全新的商业问题，而不得不建立能够处理天文数量的数据的全新的数据系统（Apache 的 Hadoop），这一块产生了大量data architect 和 data engineer职位的需求。这个也算是大数据时代带来的工作机会吧，不过这一块是暂时的，不太能sustain. 比较能持续的是 data science 的从业人员，有点儿类似于软件工程师吧。这一块，说到底，实际上是商业问题研究的一个延伸，是商业向数据要答案的这样一个延伸。由于这个商业本质（商业近乎艺术），要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察，这种东西就很难被自动化程序所取代。你提到的算法，也许就是我说的machine learning？这一块... 比商业问题更容易被程序化，当然也不太可能是这三五年内会发生的。

作者: 老兵帅客 时间: 2016-1-26 11:43

煮酒正熟发表于 2016-1-25 22:35
软件开发当然是艺术性的活动（虽然我没做过）。

你第一段说的那些，不错，都是大数据范畴，而且你说的也 ...

一个疑问，“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”，这种经验应该是与行业密切相关的，因此从业人员跨行业将会遇到经验无效问题，这个怎么解决？

举个例子，图书出版业与银行业和保险业，它们之间我是看不出有多少相似性来。银行的用户账号关联度与出版业的图书作者与畅销书关联度就没有任何关系。

作者: 煮酒正熟 时间: 2016-1-26 11:52

晨枫发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢？

神牛说的对。模型只能找出存在相关性的因素来。比如最常见的general linear model，左边一个y，右边一长串x. 人脑的作用就是确定什么是y. 比如我知道我2016年1月份有五百万人买我的医疗保险，我可以做两个预测，一是这五百万人，哪些人会在下个月就跟我说拜拜，哪些人会在三月份说拜拜... 以此类推，这就是所谓的survival prediction. 另一个预测是，这五百万人，人均每月会产生多少医疗和医药费用。

对前一个预测，number of months they'll stay with me 就是我的y. 其他的，他们的年纪，他们已经在我这儿呆了多少个月，他们有没有慢性病.. 等等，就是我的x. 如果一个人，是我多年的客户，而且有慢性病，另一个人今年1月份才成为我的客户，而且年轻，身体健康，那么显然前面那个人比后面这个人更有可能呆的时间更久（因为这个人有病，经常需要看医生，而他呆了这么多年都没换保险公司，说明他对我们公司提供给他的network比较满意，如果硬换保险公司，他没把握新保险公司提供的network和我们的一样好）。谁可能导致谁，这个是人脑做出的判断。建模，是要在人脑做出这些商业性的也是艺术性的判断之后，才能开始的。

作者: holycow 时间: 2016-1-26 11:59

老兵帅客发表于 2016-1-25 19:43
一个疑问，“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”，这种经验应该是与行业 ...

做企业级应用的人，不管做不做大数据，市场价值都是两部分组成的：技术能力和行业经验。因此你这个问题对企业级应用的从业人员都成立。

换行当有的经验是可以举一反三的，有的是要重新学习的，这个没什么新鲜的。我的经验是换跑道的时候要么依托同样的技术转换行当，要么依托同样的行当学习新技术，一下子跳两步比较危险。

作者: 煮酒正熟 时间: 2016-1-26 12:04

晨枫发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢？

上面那个例子是基于传统的商业问题的回答。对于这种问题，传统的建模手段就是经典统计学的（比如SAS）。现在大数据如日中天，大数据范畴中的machine learning开始挑战经典统计学，于是也有人开始用machine learning这种算法来建模。在模型的预测准确性方面，以我的观察，两者互有胜负。当然，现在是大数据时代，你更容易听到machine learning KO classic statistical modeling的故事

这是预测准确性方面。但在 transparency 方面，machine learning处于劣势，因为它无法如经典统计学那样，告诉你，holding everything else equal, 假如你的慢性病数量从0增加到1，你未来留在我们公司的月份会增加3.781个月... 根本原因就是，machine learning不关心why，而只是告诉你他们之间相关

问题是，来自网络的大量新兴商业问题，根本就不关心why，而只在意相关性。在这种情况下，machine learning就没有劣势。而经典统计学模型不喜欢有太多x的特点，令其在应对网络相关的新兴商业问题时，预测性不佳。

作者: 晨池 时间: 2016-1-26 12:19

煮酒正熟发表于 2016-1-25 01:49
半个数据科学家只有人家一半儿的工资，和各位同学一比简直是弱爆了 ...

那就发半个红包好了

作者: 煮酒正熟 时间: 2016-1-26 12:28
本帖最后由煮酒正熟于 2016-1-25 23:32 编辑

老兵帅客发表于 2016-1-25 22:43
一个疑问，“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”，这种经验应该是与行业 ...

的确存在这个问题。所以一般跳槽的话，大多还是在自己熟悉的行业里面跳。但是如果你对某类数据分析和商业分析非常熟，那么跨行业跳槽的时候，只要是新东家很需要你的这种数据分析和商业分析技能，那么就会好很多。当然，行业变了，数据都需要从头开始学，这个是逃不掉的。俺自己就是从信用卡和贷款风险管理这些跳到医疗保险业的，前两年也是非常苦，要花大量时间学习这一行里面的数据

作者: 晨枫 时间: 2016-1-26 13:01

老兵帅客发表于 2016-1-25 21:17
我以前做过一些data mining方面的事情，通过适当的建模和数据选取可以有效地减少你所说的问题，但是代价 ...

我没有做过商业性的建模，就过程建模而言，数据的相关性和因果性是不可能通过建模和数据选取做到的，这是本质的。商业上的大数据里是怎么通过建模和选取做到的呢？比如说，把所有股票和经纪人的行为统统数据化，依然不可能分析出股票的走向，因为经纪人的行为与股票的表现是互为因果的。数据里没有足够的自由度。

作者: 晨枫 时间: 2016-1-26 13:02

holycow 发表于 2016-1-25 21:32
模型只解决相关性，不解决因果性。解决因果性的是人脑袋

模型只解决输入数据和输出数据之间的相关性，对于输入数据内在的相关性还是抓瞎；因果性不来自人的脑袋，而是实验设计。

作者: 晨枫 时间: 2016-1-26 13:12

煮酒正熟发表于 2016-1-25 21:35
软件开发当然是艺术性的活动（虽然我没做过）。

你第一段说的那些，不错，都是大数据范畴，而且你说的也 ...

说到底，实际上是商业问题研究的一个延伸，是商业向数据要答案的这样一个延伸。由于这个商业本质（商业近乎艺术），要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察，

哈，这就和我的理解差不多了。我对这些机器学习、人工智能从来不相信，they have their places, but they are no magic。因为自控里50年前就把这路走过一遍，现在已经形成共识：there is no math-magic。任何人要是兜售“我这个先进控制可以不需要对过程的理解，先进数学可以自动形成可靠的控制”，马上把他打出去，骗子一个！自控里有一个东西叫自适应，就是非常初级的机器学习、自我调整，但这条路走得越深，越发现这只是把问题重新包装一下，原来没有解决的问题换了一个形式还在那里。数学控制理论里有一个“不变性”的说法，你可以绕过来绕过去，但问题的本质是“不变”的。我是没有干劲在理论里钻进去，也没有这个金刚钻，但自控里有一个可控性的概念，如果系统是不可控的，不管你用什么控制方法，都不可能控制系统状态。人工智能能做到的是更快，但不可能理解或者超越人类思维的突变性。深刻理解和细微观察的作用在于最终导致突变性思维，灵机一动，这是机器学习不可能做到的。

作者: 晨枫 时间: 2016-1-26 13:18

煮酒正熟发表于 2016-1-25 21:52
神牛说的对。模型只能找出存在相关性的因素来。比如最常见的general linear model，左边一个y，右边一长 ...

你这些都没有问题，模型就是界定输入数据和输出数据之间的相关性的，问题出在输入数据集内部存在相关性。换句话说，一大堆数据中，其实只有很少几个是独立的，其他都可以看作这几个独立数据的某种组合（简单的就是线性组合）。这种情况对于大数据经常存在。比如说，我们用工艺条件回归产品质量模型，过程参数（温度、压力、流量、组分）每分钟一个数据，一年下来何止千万，问题是这些工艺条件大部分是围绕这有数的几个产品，每个产品有一组特定的工艺条件指标，所以大量数据都是相关的，实际上可用的数据量很少。这就是输入数据的相关性问题。我们没有什么办法解决，如果我一共只有5个产品，把一年200万个数据点输进去，实际上还是这5个点，把10年的数据输进去，也是这5个点；不知道商业上有什么好办法吗？

作者: 晨枫 时间: 2016-1-26 13:23

煮酒正熟发表于 2016-1-25 22:04
上面那个例子是基于传统的商业问题的回答。对于这种问题，传统的建模手段就是经典统计学的（比如SAS）。 ...

classic stats我的理解就是parametric modeling，machine learning是non-parametric的吗？可以和神经元类比吗？神经元我也玩过，最大的问题是在数据点上拟合精度很好，但既不能内插，也不能外推，行为太不可预测。我们还用过co-linear analysis，也叫parallel coordinates或者geometric process control，也是一样的问题，只说明相关性，不说明因果性，貌似强大，真要靠它解决问题，就抓瞎了，因为对相关性的解释取决于对因果性的主观认识。

作者: holycow 时间: 2016-1-26 13:23

晨枫发表于 2016-1-25 21:02
模型只解决输入数据和输出数据之间的相关性，对于输入数据内在的相关性还是抓瞎；因果性不来自人的脑袋， ...

你这个是自动控制的角度，大数据的model的用处，是present给决策者各种相关性，这些相关性当然是因果性的candidate，然后决策者在从里面看哪些是真的因果性。

然后还有老酒说的，我只care相关性，不care因果性。比如说我不需要知道油价跌和股市跌之间到底谁是因谁是果，抑或两者都是强美元的果。如果我的模型告诉我油价和股市几乎等于1的正相关，我就可以反做两个市场来对冲，或同向做两个市场来放大收益。这是数量基金的基本原理，当然每次相关性反转的时候总会死一批人

作者: 晨枫 时间: 2016-1-26 13:25

holycow 发表于 2016-1-25 23:23
你这个是自动控制的角度，大数据的model的用处，是present给决策者各种相关性，这些相关性当然是因果性的 ...

哈，抬头往上看58楼。

有点理解为什么花街那么screwed up了。

作者: holycow 时间: 2016-1-26 13:28

晨枫发表于 2016-1-25 21:23
classic stats我的理解就是parametric modeling，machine learning是non-parametric的吗？可以和神经元类 ...

模型本来就是对客观世界的近似，没有对客观世界的正确理解，肯定是不行的。

所以大数据世界里面cream of the crop是modeler，然后劳动密集型不怕失业的是data curator，只会玩tool的就像老兵说的迟早变白菜

作者: 煮酒正熟 时间: 2016-1-26 13:30
本帖最后由煮酒正熟于 2016-1-26 00:32 编辑

晨枫发表于 2016-1-26 00:12
哈，这就和我的理解差不多了。我对这些机器学习、人工智能从来不相信，they have their places, but the ...

我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而是针对一些特定问题最为有效。机器学习一个比较常见的应用就是，我们去亚马逊网站，登录以后浏览了一些商品，结果它似乎对你有了一定了解，并且把你给“记住”了，以后只要你一登录，它就给你列一些商品，里面经常会有你感兴趣的商品。油条帮也是这样。还有linked-in，过一段时间就给你推介一堆人，说你仔细看看，这堆人里有没有你认识的。我从来没告诉过linked-in我去过西西河，也来艾滋生，但它居然就给我推介了好几个河友，包括宝贝小猪，禅妹@禅人，从前河里的倥偬飞人，和纳子等等。感觉机器学习对关联性和pattern的捕捉能力很强，另一个巨大优势就是面对天文级数的数据全无惧色应对裕如

作者: holycow 时间: 2016-1-26 13:37

晨枫发表于 2016-1-25 21:25
哈，抬头往上看58楼。

有点理解为什么花街那么screwed up了。

模型搞到最后，已经不是人脑能够理解的了，it's a runaway train～～

作者: 煮酒正熟 时间: 2016-1-26 13:41

晨枫发表于 2016-1-26 00:18
你这些都没有问题，模型就是界定输入数据和输出数据之间的相关性的，问题出在输入数据集内部存在相关性。 ...

你说的是multi-collinearity吗？

建模的程序通常是 ---
1. define universe
2. append all variables that are potentially model inputs (or model features);
3. split the Train and Validation population; 通常Train 占70%，validation 30%;
4. variable selection; 就是决定那些variables 最终成为model features;
5. train the model;
6. local validation (using the 30% Validation population) and out-of-time validation;
7. create model deck and present to senior management

如果两个independent variable几乎完全相关，那么在variable selection这一步就留一个丢一个。
在经典统计学领域里面，常用的variable selection方法包括backward stepwise（逐步减少variables), forward stepwise(逐步添加）, and bootstraping..

作者: 禅人 时间: 2016-1-26 13:48

煮酒正熟发表于 2016-1-26 13:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

linked-in顾名思义就是要把你我她他扯在一起嘛。记得我对你说过，这几个人与你link的节点,估计就是各自留给linked-in 的电邮邮箱，而这些邮箱与你的邮箱之间应该是私下传过情滴，于是乎linked-in liao咯。

作者: 晨枫 时间: 2016-1-26 13:51

煮酒正熟发表于 2016-1-25 23:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

亚马逊这东西我觉得还是可以理解：把商品的特征分为很多label，然后建立数据库，按照你买东西或者browse的最近个例进行query。比如说，我最近买了CD，这就是一个大label；我买的是DG Original，这就是classic music，次一级的label；这还是generic collection而不是哪一个作曲家或者演奏家的专辑，再次一级的label；如果翻看Anne Sophie Mutter，那就是小提琴label，加上特定演奏家；然后可以延伸到风格相近的演奏家，……等等。pattern就是这些关键的label。

这里面的关键在于label精确的数据库，或者这就是老兵所说的数据？

作者: 晨枫 时间: 2016-1-26 13:51

holycow 发表于 2016-1-25 23:37
模型搞到最后，已经不是人脑能够理解的了，it's a runaway train～～

这就不可能是好模型……

作者: 晨枫 时间: 2016-1-26 13:53

煮酒正熟发表于 2016-1-25 23:41
你说的是multi-collinearity吗？

建模的程序通常是 ---

哈哈，一样的步骤。我们可能多一个experiment design来产生数据。

作者: 煮酒正熟 时间: 2016-1-26 13:58

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

我猜，一方面是模型的叠加使用导致结果不可预测，再一个是模型没有算到基于自己这个模型所做出的市场行为，反过来会为市场所追踪和使用... 所以，单独看每一个模型都很美很好，但使用起来就会出一些预想不到的问题。这还没算花街年景好的时候高级金领不断跳槽导致后继者对前任的复杂模型吃不透所引发的问题呢

作者: 老兵帅客 时间: 2016-1-26 20:12

holycow 发表于 2016-1-25 22:59
做企业级应用的人，不管做不做大数据，市场价值都是两部分组成的：技术能力和行业经验。因此你这个问题对 ...

走投无路的才会一次跳两步呢。

作者: 老兵帅客 时间: 2016-1-26 20:17

煮酒正熟发表于 2016-1-25 23:04
上面那个例子是基于传统的商业问题的回答。对于这种问题，传统的建模手段就是经典统计学的（比如SAS）。 ...

相关性的问题在于很多是主观认定滴，因为你没有多少非常过硬地证据，过了一段时间无利可图了，就被悄悄滴忽略了。于是我们发现，那不是专业技术，而是办公室政治。

不要以为我在说笑话，施乐那个多余的工厂是怎么出来的，那可是一票MBA专家的专业经验确定的，属于最彻底的专业认定，结果就是个大笑话。为啥，因为数据的特点是垃圾进、垃圾出。要从中找出来确实相关的，有时候是运气，有时候就是德性了。

作者: 老兵帅客 时间: 2016-1-26 20:23

煮酒正熟发表于 2016-1-26 00:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

不奇怪，机器学习的基础就是统计，但是在采样不够大的情况下，无法有效地消除噪音，于是你会发现系统会有很多误判。这方面的消除还是靠人，也就是后台有人根据现实人工消除一些噪音，但是没有根本的解决办法。

但是假如能够做大采样足够大的话，就能有效地消除噪音，但是对应的时间和空间开销以及费用就会成问题了。其实这也就是现在所谓的大数据的优势之一。问题是有多少人玩得起这样的硬件环境？

作者: 老兵帅客 时间: 2016-1-26 20:26

禅人发表于 2016-1-26 00:48
linked-in顾名思义就是要把你我她他扯在一起嘛。记得我对你说过，这几个人与你link的节点,估计就是各自留 ...

linkedin这方面做得很差，我经常收到一些莫名其妙的的人的请求加连接的要求，因为他们与我无论是在专业上还是地域和利益上都毫无关系。

它做的比较靠谱的是用你提供的简历来搜索相关性，因此你会发现你的同学们、前同事们都出现了。其余的就算了。

作者: 老兵帅客 时间: 2016-1-26 20:28

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

所以这些东西很多都是主观影响的选择结果，能否成功就要看运气了。于是就是这么试试、那么试试，看看哪个能比较碰上现实一些。

作者: 冰蚁 时间: 2016-1-26 22:30
本帖最后由冰蚁于 2016-1-26 09:44 编辑

大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的名，干着以前的事，因为根本玩不转那么多数据。前几年就已经有大数据是个筐，什么都往里装的说法。另一个公司的朋友说，他们业内已经不提 big data 这个词。

我觉得目前有点类似互联网兴起后的泡沫，要崩掉一两次后，大概会有一个比较清晰的模式出来。另外，人工智能也得跟上来。这样才能玩转大数据。

PS，附一段 big data 的定义。我看楼上对 big data 定义有走偏的趋势。

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.[13] Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data. Big data requires a set of techniques and technologies with new forms of integration to reveal insights from datasets that are diverse, complex, and of a massive scale.[14]

In a 2001 research report[15] and related lectures, META Group (now Gartner) analyst Doug Laney defined data growth challenges and opportunities as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in and out), and variety (range of data types and sources). Gartner, and now much of the industry, continue to use this "3Vs" model for describing big data.[16] In 2012, Gartner updated its definition as follows: "Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization."[17] Gartner's definition of the 3Vs is still widely used, and in agreement with a consensual definition that states that "Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value".[18] Additionally, a new V "Veracity" is added by some organizations to describe it,[19] revisionism challenged by some industry authorities.[20] The 3Vs have been expanded to other complementary characteristics of big data:[21][22]

Volume: big data doesn't sample; it just observes and tracks what happens
Velocity: big data is often available in real-time
Variety: big data draws from text, images, audio, video; plus it completes missing pieces through data fusion
Machine Learning: big data often doesn't ask why and simply detects patterns[23]
Digital footprint: big data is often a cost-free byproduct of digital interaction[22]

The growing maturity of the concept more starkly delineates the difference between big data and Business Intelligence:[24]

Business Intelligence uses descriptive statistics with data with high information density to measure things, detect trends, etc..
Big data uses inductive statistics and concepts from nonlinear system identification[25] to infer laws (regressions, nonlinear relationships, and causal effects) from large sets of data with low information density[26] to reveal relationships and dependencies, or to perform predictions of outcomes and behaviors.[25][27]

In a popular tutorial article published in IEEE Access Journal,[28] the authors classified existing definitions of big data into three categories: Attribute Definition, Comparative Definition and Architectural Definition. The authors also presented a big-data technology map that illustrates its key technological evolutions.

作者: 晨枫 时间: 2016-1-26 22:52

冰蚁发表于 2016-1-26 08:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所以稀疏矩阵什么的都出来了。现在好像又不听说这事了。

大数据里的机器学习看来最大的问题就在于这个只看pattern不管因果了。现代科学的理性思维的基础就在于因果。

作者: 老兵帅客 时间: 2016-1-26 23:00

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

我说冰姨啊，不要说的这么吃果果嘛，这样会毁掉多少人的梦想啊。

学术认真是必要滴，但是这个世界必须有足够的忽悠空间，否则经济会很差，失业人口会很多滴。

作者: MacArthur 时间: 2016-1-26 23:02

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

“BIG DATA”正在慢慢被这帮人给玩臭了。。。

利用CEO们对于技术上最新潮词又恨又怕又不得不装得很in的心态，有意无意的进行误导，什么事只要上了BIG DATA马上立竿见影，一切问题全部解决。。。

前两天刚刚招待了这么一位，号称要做SPLUNK第二，要专门为我们公司建立“BIG DATA”，告诉他我们公司这点儿数据不够BIG呵。。。人说没关系，我们有“BIG DATA”，你们不够BIG我们BIG就行了。。。

作者: 煮酒正熟 时间: 2016-1-26 23:03

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里，除了少数西海岸高科技类型公司，在2010年以前就建立了数据科学organization，并大量招募大数据分析员，因而将大数据的分析方法与数据本身结合的较好之外，大部分传统公司都处于你所说的这个阶段。对于大部分传统公司比如Macy's，一个普遍性难题是，懂数据懂business的人不会玩儿大数据那些分析手段，而会玩儿大数据分析手段的这批都是小孩子，刚进公司，自然不懂业务也不懂数据甚至人际交往能力都有缺陷。有的公司，比如我们这里，采取的人事策略就是，先招进来，让老人带新人，将业务知识和数据知识传授给新人，同时老人也可以从新人那里学到大数据方法。这个策略现在看来是彻底的捣乱失败再捣乱再失败... 根结有两个，人的问题和外部因素。人的问题：老人保守，怕教会了你自己的饭碗就丢了；新人狂傲，不待见学这些很枯燥无味的商务和数据，另外也没有耐心教老鸟。外部原因就是，西海岸一堆高科技公司吼吼地招有一定经验的大数据分析员。我们公司的作用最终就是帮他们西海岸的亚马逊等等免费培训了两年，然后这帮小崽子们就都飞啦

作者: 老兵帅客 时间: 2016-1-26 23:05

晨枫发表于 2016-1-26 09:52
有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所 ...

当年的软件界还时髦过第四代语言和CASE tools呢，结果后来证明根本行不通。为啥，因为复杂度简单了没事，一旦复杂度上去，变数也就急剧上去了，就不是简单的逻辑和业务知识能处理的了，于是还得回到第三代语言完事。

因此我看老酒的这个大数据，早晚也是这个命。不过老酒要是善于忽悠的话，倒是个很好的机会。

作者: 冰蚁 时间: 2016-1-26 23:08

晨枫发表于 2016-1-26 09:52
有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所 ...

我觉得大概是稀疏矩阵啥的应该已经做进软件，成为日常工具了，所以就不提了。

因果啥的，理论上以后要靠人工智能判断喽。目前人工智能还不行，就靠人脑。人脑处理能力有限，所以top data scientist 就很吃香。回到你的主贴，就 money 多多啦。

作者: 老兵帅客 时间: 2016-1-26 23:11

MacArthur 发表于 2016-1-26 10:02
“BIG DATA”正在慢慢被这帮人给玩臭了。。。

利用CEO们对于技术上最新潮词又恨又怕又不得不装得很in的 ...

公开诳人啊。

作者: 穿着裤衩裸奔 时间: 2016-1-26 23:14
Software engineer 还不到10W usd，比想象的低不少啊

作者: 老兵帅客 时间: 2016-1-26 23:18

煮酒正熟发表于 2016-1-26 10:03
以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里， ...

有一个问题你没考虑到，那就是各种因素的相关影响。这个问题在数据简单的时候，比较容易根据经验来处理，但是随着复杂度上去，很难说到底因果之间是什么关系了。

因此，即使人性没有缺点，没有自私保守和狂傲，也一样不可能解决这个问题。

大数据最好的一面是只有数据量大，最坏的一面是随着数据量的增长，复杂度也上去了。前者可以通过硬件投资来解决，而后者无解。

在软件开发这个领域，这个问题是一直存在而且没什么好办法解决的，这就是为什么软件开发的基本原则之一就是大问题分解成一堆小问题，分而治之。但是这个分解必须是各个部分之间关系明确的，否则就是在找倒霉。因此，大数据的复杂度问题就像软件工程里面的CASE TOOLS复杂度一样，会把泡沫弄破滴。

作者: erha 时间: 2016-1-26 23:44
看了这个我心情平复了许多。

作者: 晨枫 时间: 2016-1-27 00:12

老兵帅客发表于 2016-1-26 09:05
当年的软件界还时髦过第四代语言和CASE tools呢，结果后来证明根本行不通。为啥，因为复杂度简单了没事， ...

老酒没事。就凭那颜值，大小数据通吃。

作者: 晨枫 时间: 2016-1-27 00:13

冰蚁发表于 2016-1-26 09:08
我觉得大概是稀疏矩阵啥的应该已经做进软件，成为日常工具了，所以就不提了。

因果啥的，理论上以后要靠 ...

哈哈，你对人工智能是一如既往地力挺啊。

作者: 橘子和枪 时间: 2016-1-27 00:23
弱弱的问一句，最后一张图里面，那个名字最长的，什么church的也算是一个工作嘛？

作者: 晨枫 时间: 2016-1-27 00:36

橘子和枪发表于 2016-1-26 10:23
弱弱的问一句，最后一张图里面，那个名字最长的，什么church的也算是一个工作嘛？ ...

没有看到church啊，这些都是公司的名字。

作者: hotlemontea 时间: 2016-1-27 00:39

煮酒正熟发表于 2016-1-26 07:08
这个问题要辩证地来看，发展地来看。不过在开侃之前俺先表个态：俺跟你是一伙儿的，根子在数据库和数据方 ...

以前的存在数据库的数据大多是事务型的，现在的大数据包括了很多behavior型的数据，区别data analyst 和data scientist的唯一标准是能不能基于现有数据建立有用的模型和搞出准确的预测结果，什么hadoop，python，R之类的都是工具，只会这些东西，搞不好数据建模和预测，也还是个analyst

作者: 穿着裤衩裸奔 时间: 2016-1-27 00:46

煮酒正熟发表于 2016-1-26 23:03
以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里， ...

好惨好惨

作者: holycow 时间: 2016-1-27 00:53

老兵帅客发表于 2016-1-26 07:11
公开诳人啊。

开个逼格达挞群吧，过几个月又可以卖勋章了

作者: 老兵帅客 时间: 2016-1-27 00:57

holycow 发表于 2016-1-26 11:53
开个逼格达挞群吧，过几个月又可以卖勋章了

嗯，这个一定要按照天才帮的模式，快速挣分，上市圈钱。

作者: 老兵帅客 时间: 2016-1-27 01:03

holycow 发表于 2016-1-26 11:53
开个逼格达挞群吧，过几个月又可以卖勋章了

逼格达挞群成立了，欢迎加入！http://www.aswetalk.net/bbs/foru ... =manage&fid=220

作者: holycow 时间: 2016-1-27 01:05

老兵帅客发表于 2016-1-26 09:03
逼格达挞群成立了，欢迎加入！http://www.aswetalk.net/bbs/forum.php?mod=group&action=manage&fid=220 ...

骗子！没权限加入

作者: 老兵帅客 时间: 2016-1-27 01:09

holycow 发表于 2016-1-26 12:05
骗子！没权限加入

老酒要气晕了。

已经允许你加入了。

作者: 冰蚁 时间: 2016-1-27 01:24

晨枫发表于 2016-1-26 11:13
哈哈，你对人工智能是一如既往地力挺啊。

我倒不是力挺。我认为是个不可避免的趋势。我本人对人工智能没那么喜好。比如自动驾驶汽车，能够好天气在高速上能自己跑就已经符合我的要求了。什么全天候全地域自动驾驶，我也没那么非有不可。哈哈。

作者: 冰蚁 时间: 2016-1-27 01:38

holycow 发表于 2016-1-26 12:05
骗子！没权限加入

9494

这得改打他群了。

作者: 杂役头儿 时间: 2016-1-27 12:00

holycow 发表于 2016-1-25 01:46
晨大小白了，UX就是User Interface。Solution Architect就是老兵他老板。

还有，工程咨询公司来接你们生意 ...

这里的engagement mgr，是说people engagement还是业务类别的呀？

作者: holycow 时间: 2016-1-27 12:04

杂役头儿发表于 2016-1-26 20:00
这里的engagement mgr，是说people engagement还是业务类别的呀？

业务，其实就是咨询公司的项目(engagement)经理

欢迎光临爱吱声 (http://www.aswetalk.net/bbs/)