2018/10/23

❤內參-對大數據的誤解和大數據的四種力量

出處:對大數據的誤解和大數據的四種力量


大數據是這幾年的一項熱門技術。
它和人工智能、雲計算一起,已經成為大科技公司的技術標配。
但是該如何理解大數據技術?這項技術對我們有什麼影響?
這些基本的問題,不少人卻並不清楚。
谷歌的數據科學家賽斯(賽斯·史蒂芬斯-大衛德維茨Seth Stephens-Davidowitz)
寫了一本書《數據、謊言與真相》
(Everybody Lies:Big Data,New Data ,and What the Internet Can 
Tell Us About Who We Really Are ),裡面對這些問題給出了他的回答。
大數據這個名字本身會給人一種誤解,認為大數據的關鍵在於數據量很大。
不過,賽斯說,數據集的大小經常被高估。
其實所需要的數據集的大小,跟數據本身的效果、數據的真實程度等都有關。
舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。
但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。
原因就在於,熱爐子本身的效果強度很高,因此,只需要一項數據,就能顯現出結果。

賽斯在這本書裡引用了大量人們在谷歌中搜索的數據。
谷歌的數據之所以這麼有價值,
其實原因也不完全是因為谷歌能拿到的龐大的數據量,
還因為,人們在自己的電腦上輸入關鍵詞、進行搜索時,都很誠實。
他們不需要考慮社交壓力、周圍人的眼光等等。

用賽斯的話說,“你未必總是需要大數據,才能得出重要見解,你需要正確的數據。”
大數據革命跟收集更多的數據無關,而是跟收集正確的數據有關。
還是以谷歌為例。谷歌不是僅僅憑藉著能夠比其他搜索引擎搜索到更多的內容,
就成為世界上最大的搜索引擎公司,它憑藉的是,可以搜索到更好的數據。
這跟谷歌的算法有關。谷歌的算法,按照一個網頁被鏈接的數量來對搜索結果排序。

賽斯介紹了大數據的四種力量。這四種力量,也並不都同數據集本身的大小相關。
大數據的第一種力量是,提供了新類型的數據。
比如,包括弗洛伊德在內的思想家,都會從性的角度,來解釋人類的很多行為。
但是,這些思想家更多還是在觀念層面進行思考。
而現在,大數據時代的研究者,有了一項讓那些過往思想家羨慕不已的數據:
人們在互聯網上搜索和觀看色情作品的數據。
這些獨特的數據來源,能夠讓研究者進入以前只能靠推理和猜測的領域。
大數據的力量在於,重新想像什麼東西有資格成為數據,
提供之前從來沒有收集過的信息,讓人們可以研究。
作者舉了一個例子。
他曾經把2004年至2011年的失業率輸入到谷歌的數據挖掘工具Google Correlate中,
結果發現,跟失業最相關的搜索,一個是色情網站,另一個是蜘蛛紙牌。
作者猜測,原因也很簡單,因為失業者會有很多空閒時間。
所以,他就發現,“利用一些跟消遣相關的搜尋組合,
就能追踪失業率,而且是預測失業率最佳模式的一部分。”


大數據的第二種力量是,提供了誠實的數據
在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,
人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。
但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,
但是在互聯網上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。

“大數據使我們終於可以看清人們真正想要什麼和真正做了什麼,
而不是人們說自己要什麼和做了什麼。”
知名投資人彼得·蒂爾說過,偉大的企業建立在秘密之上。
可能是關於自然的秘密,也可能是關於人的秘密。
人的秘密,指的是跟自己有關但自己卻不知道,或者不想讓別人知道的事。
舉個例子,流媒體公司奈飛,曾經讓用戶設置一個自己以後想看的電影播放列表。
奈飛發現,用戶確實會把電影添加到這個列表中,
但是,儘管奈飛會提醒用戶看這些電影,用戶卻很少真的去看。
因為,人們說自己想要的,跟自己實際想要的不一致。
後來,奈飛不再要求用戶告訴自己他們想看什麼電影,
而是根據用戶點擊和觀看的數據建立一個模型,用模型來推測用戶想看什麼電影。
結果,用戶果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。

所以,奈飛前數據科學家澤維爾·艾瑪特里安說:算法比你更了解你自己。


大數據的第三種力量是,讓我們可以把焦點放在人口中的一個很小的子集,去進行研究。
當然,這要求對小的子集,也有大數據量。
打個比方,為了將照片的一小部分放大後還能看清楚,照片需要有很高的像素。
同樣,為了能夠清楚放大檢視數據的小子集,每一個小子集中都需要大量的數據。
比如,某一個球隊有多受1978年出生的男性的歡迎。
只對幾千人進行的小調查,樣本根本不夠大,1978年出生的男性人數肯定不夠多。
這樣做的意義在什麼地方呢?
作者通過數據研究發現,是否成為一個球隊的粉絲,
跟這個球隊在一個人特定年齡段的表現有關係。
如果在一個人對運動最痴迷、最容易喜歡上某項運動的時間段,
這個球隊的表現越好,那它獲得這個年齡段的球迷就越多。
而且,美國人政治觀點的形成也類似。
很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。
其中,形成政治觀點最重要的年紀是18歲。
受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。
反之亦然。 “大數據允許我們有意義地放大檢視數據集的細部,獲取新的洞察。”

第四種力量是,允許研究者進行因果關係實驗。
大數據可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。
這種測試在很多互聯網公司被稱作是A/B測試。
臉書(Facebook)每天能進行上千次A/B測試。
所謂的A/B測試,指的是,
在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,
收集數據,來評估出用戶更喜歡的版本
比如,兩個標題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。
有一個網站的CEO說:“你不能假設任何事,必須針對每件事都進行測試才行”,
“如果我們了解人性,根據我們的生活經驗就能判斷答案是什麼,那麼測試就不會有價值。
但事實上,我們不了解人性,所以測試才這麼有價值。”
這種方法,互聯網公司已經大量使用,而現在和將來,社會科學家也可以使用,
從而把以往模糊的研究,變得更科學。

本期內容改寫自:《數據、謊言與真相》
《Everybody Lies:Big Data,New Data ,and What the Internet Can 
Tell Us About Who We Really Are 》
作者:賽斯·史蒂芬斯-大衛德維茨(Seth Stephens-Davidowitz)



---------------------------------------------------
摘要:
數據集的大小經常被高估。
其實所需要的數據集的大小,跟數據本身的效果、數據的真實程度等都有關。

舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。
但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。
原因就在於,熱爐子本身的效果強度很高,因此,只需要一項數據,就能顯現出結果。
谷歌的數據之所以這麼有價值,
其實原因也不完全是因為谷歌能拿到的龐大的數據量,
還因為,人們在自己的電腦上輸入關鍵詞、進行搜索時,都很誠實。
他們不需要考慮社交壓力、周圍人的眼光等等。
你未必總是需要大數據,才能得出重要見解,你需要正確的數據。
大數據有四種力量:
1. 提供了新類型的數據。
 比如,包括弗洛伊德在內的思想家,都會從性的角度,來解釋人類的很多行為。
 但是,這些思想家更多還是在觀念層面進行思考。
 而現在,大數據時代的研究者,有了一項讓那些過往思想家羨慕不已的數據:
 人們在互聯網上搜索和觀看色情作品的數據。
 這些獨特的數據來源,能夠讓研究者進入以前只能靠推理和猜測的領域。
 大數據的力量在於,
 重新想像什麼東西有資格成為數據,提供之前從來沒有收集過的信息,讓人們可以研究。
2. 提供了誠實的數據
 在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,
 人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。
 但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,
 但是在互聯網上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。
 舉個例子,流媒體公司奈飛,曾經讓用戶設置一個自己以後想看的電影播放列表。
 奈飛發現,用戶確實會把電影添加到這個列表中,
 但是,儘管奈飛會提醒用戶看這些電影,用戶卻很少真的去看。
 因為,人們說自己想要的,跟自己實際想要的不一致。
 後來,奈飛不再要求用戶告訴自己他們想看什麼電影,
 而是根據用戶點擊和觀看的數據建立一個模型,用模型來推測用戶想看什麼電影。
 結果,用戶果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。
3. 讓我們可以把焦點放在人口中的一個很小的子集,去進行研究
 例如美國人政治觀點的形成,
 很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。
 其中,形成政治觀點最重要的年紀是18歲。
 受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。
 反之亦然。 “大數據允許我們有意義地放大檢視數據集的細部,獲取新的洞察。”
4. 允許研究者進行因果關係實驗
 大數據可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。
 這種測試在很多互聯網公司被稱作是A/B測試。
 臉書(Facebook)每天能進行上千次A/B測試。
 所謂的A/B測試,指的是,
 在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,
 收集數據,來評估出用戶更喜歡的版本。
 比如,兩個標題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。

❤內參-情緒:為什麼人們有時會反應過度

出處:情緒:為什麼人們有時會反應過度


有時候,人們會對某些事情反應過度。
比如,可能你的領導只是要求你在和客戶打交道時更積極一些,就會讓你突然覺得很氣憤。
心理學家曼弗雷德·凱茨·德弗里斯在一篇文章中分析了這種過度反應的情況。
微信公眾號“家族企業雜誌”翻譯了這篇文章。

曼弗雷德說,在了解反應過度這種情況之前,我們要先了解大腦。
人類大腦天生就懂得模式識別,
簡單說,大腦的運作就像是某種模式比對和模式生成的機器,
如果某個事物和現有的模式不相符,
大腦就會試圖把它套用到熟悉的模式裡,以便理解它是什麼。
我們之前的經驗就像捷徑,如果新情況和之前的經驗類似,大腦就會用過去的經驗來處理,
而這麼做花費的“成本”,比大腦重新弄清楚這件事花的成本要低得多。

因此,在我們和其他人的關係中,大腦也會這麼做。
當我們試圖理解自己不熟悉的人時,大腦會讓我們假定這個人的行為,
跟以前我們遇過的其他人類似。
如果某個人讓我們想起自己親近的人,我們會對他感覺良好;
而如果對方讓我們想起帶給我們痛苦的人,大腦就會產生警覺,
這時候,就有可能出現最開始提到的那種反應過度的情況。

這種錯誤的人際連結,
最早是弗洛伊德(Sigmund Freud)提出的,他用“轉移”(transference)來說明這種現象。
如果某人讓你想起某個曾與你熱戀的人,你對這個人一見鍾情,這就是轉移
如果你第一眼就不喜歡某個人,對方讓你想起過去曾對你有負面影響的人,這也是轉移。
曼弗雷德說,如果你對某個人的情緒反應很強烈,
而那種反應明顯不適合當下的情況,你很可能是經歷了轉移反應。 
“轉移反應基本上是在重溫過去,因此它們引發的反應,
在目前的環境中往往是不恰當的,甚至是奇怪的。”

那怎樣避免轉移反應帶來的負面影響呢?
曼弗雷德建議,
你可以反思一下讓你陷入麻煩的行為模式,以及你覺得自己在哪些方面總是判斷不好。
你可以問自己這樣幾個問題:
“什麼樣的人讓我感到焦慮、憤怒、悲傷或快樂?我喜歡或不喜歡他們什麼?
這些人讓我想起我過去曾碰到的哪些人?他們有哪些相似或不同之處?”
發現過去那些不好的事情,是不讓它們干擾現在生活的第一步。



------------------------------
摘要:
“轉移”(transference),最早是弗洛伊德(Sigmund Freud)提出的,意思是:
如果某人讓你想起某個曾與你熱戀的人,你對這個人一見鍾情,這就是轉移
如果你第一眼就不喜歡某個人,對方讓你想起過去曾對你有負面影響的人,這也是轉移。

那怎樣避免轉移反應帶來的負面影響呢?

你可以反思一下讓你陷入麻煩的行為模式,以及你覺得自己在哪些方面總是判斷不好。
你可以問自己這樣幾個問題:
“什麼樣的人讓我感到焦慮、憤怒、悲傷或快樂?我喜歡或不喜歡他們什麼?
這些人讓我想起我過去曾碰到的哪些人?他們有哪些相似或不同之處?”
發現過去那些不好的事情,是不讓它們干擾現在生活的第一步。

❤內參-如何提高時間回報率

出處:管理大師:如何提高時間回報率


忙碌已經成為現代職場人的一個典型特徵。
總會有無數的事情來爭奪你的時間和注意力,比如,要參加的會議、要回复的信息、
要處理的郵件、要推進的工作。而且,智能手機和社交網絡又加劇了這個現象。
那些效率高的人,其實擁有的時間和每個人都是相同的,只不過,他們的時間回報率更高。
該如何提高時間的回報率呢?管理大師拉姆·查蘭在《高潛》這本書裡,給出了三個建議。


第一個建議是:聚焦重點。
越是對自己要求高的人,想要做的事情就越多,而且,想要每件事情都做到精益求精。
但是 ,由於一個人的時間和精力有限,做的事情越多,
分攤到每件事情上的時間和精力就越少。解決之道就是,只聚焦在最關鍵的幾件事上。
這樣,你會發現自己的工作效率和工作成果都會大幅提升。


第二個建議是,善用信息。
你要主動思考,哪些信息最重要,是你必須知道的;
為了獲取這些信息,你應該通過什麼樣的渠道;
以及,你獲取這些信息的頻率應該是怎樣的。
除此之外,也要善於利用碎片時間。
拉姆·查蘭自己就把路上堵車的時間,以及飛機延誤的時間等,都用來閱讀。
善用信息的關鍵是,不要做信息的被動接受者,而是要化被動為主動。
無論是區分信息的重要性和獲取方式,還是自己安排在碎片時間裡要獲取的內容,
本質都是,不要簡單去接收那些推送給你的信息。


第三個建議是,果斷決策。
查蘭說:“要想提高自己的時間回報率,就必須能夠果斷決策。
善於分析固然好,但如果只分析不決策,總想再收集更多的數據信息,
再考慮更多的備選方案,那你就陷入了無底洞。這樣猶豫再三,
即便最終做了決策,估計也是為時已晚。”
如果你發現自己很難做到果斷決策,那麼,你要坦誠面對自己,
去找自己難以決策背後的原因是什麼,是因為天生討厭風險,還是因為擔心犯錯。
查蘭說:“果斷決策是項技能,與其他所有技能一樣,都需要堅持練習。”



-------------------------------------
摘要:
1. 聚焦重點
 越是對自己要求高的人,想要做的事情就越多,而且,想要每件事情都做到精益求精。
 但是 ,由於一個人的時間和精力有限,做的事情越多,
 分攤到每件事情上的時間和精力就越少。解決之道就是,只聚焦在最關鍵的幾件事上。
2. 善用信息
 你要主動思考,哪些信息最重要,是你必須知道的;
 為了獲取這些信息,你應該通過什麼樣的渠道;
 以及,你獲取這些信息的頻率應該是怎樣的。
 除此之外,也要善於利用碎片時間。
 善用信息的關鍵是,不要做信息的被動接受者,而是要化被動為主動。
 無論是區分信息的重要性和獲取方式,還是自己安排在碎片時間裡要獲取的內容,
 本質都是,不要簡單去接收那些推送給你的信息。
3. 果斷決策
 善於分析固然好,但如果只分析不決策,總想再收集更多的數據信息,
 再考慮更多的備選方案,那你就陷入了無底洞。這樣猶豫再三,
 即便最終做了決策,估計也是為時已晚。