2018/10/23

❤內參-對大數據的誤解和大數據的四種力量

出處:對大數據的誤解和大數據的四種力量


大數據是這幾年的一項熱門技術。
它和人工智能、雲計算一起,已經成為大科技公司的技術標配。
但是該如何理解大數據技術?這項技術對我們有什麼影響?
這些基本的問題,不少人卻並不清楚。
谷歌的數據科學家賽斯(賽斯·史蒂芬斯-大衛德維茨Seth Stephens-Davidowitz)
寫了一本書《數據、謊言與真相》
(Everybody Lies:Big Data,New Data ,and What the Internet Can 
Tell Us About Who We Really Are ),裡面對這些問題給出了他的回答。
大數據這個名字本身會給人一種誤解,認為大數據的關鍵在於數據量很大。
不過,賽斯說,數據集的大小經常被高估。
其實所需要的數據集的大小,跟數據本身的效果、數據的真實程度等都有關。
舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。
但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。
原因就在於,熱爐子本身的效果強度很高,因此,只需要一項數據,就能顯現出結果。

賽斯在這本書裡引用了大量人們在谷歌中搜索的數據。
谷歌的數據之所以這麼有價值,
其實原因也不完全是因為谷歌能拿到的龐大的數據量,
還因為,人們在自己的電腦上輸入關鍵詞、進行搜索時,都很誠實。
他們不需要考慮社交壓力、周圍人的眼光等等。

用賽斯的話說,“你未必總是需要大數據,才能得出重要見解,你需要正確的數據。”
大數據革命跟收集更多的數據無關,而是跟收集正確的數據有關。
還是以谷歌為例。谷歌不是僅僅憑藉著能夠比其他搜索引擎搜索到更多的內容,
就成為世界上最大的搜索引擎公司,它憑藉的是,可以搜索到更好的數據。
這跟谷歌的算法有關。谷歌的算法,按照一個網頁被鏈接的數量來對搜索結果排序。

賽斯介紹了大數據的四種力量。這四種力量,也並不都同數據集本身的大小相關。
大數據的第一種力量是,提供了新類型的數據。
比如,包括弗洛伊德在內的思想家,都會從性的角度,來解釋人類的很多行為。
但是,這些思想家更多還是在觀念層面進行思考。
而現在,大數據時代的研究者,有了一項讓那些過往思想家羨慕不已的數據:
人們在互聯網上搜索和觀看色情作品的數據。
這些獨特的數據來源,能夠讓研究者進入以前只能靠推理和猜測的領域。
大數據的力量在於,重新想像什麼東西有資格成為數據,
提供之前從來沒有收集過的信息,讓人們可以研究。
作者舉了一個例子。
他曾經把2004年至2011年的失業率輸入到谷歌的數據挖掘工具Google Correlate中,
結果發現,跟失業最相關的搜索,一個是色情網站,另一個是蜘蛛紙牌。
作者猜測,原因也很簡單,因為失業者會有很多空閒時間。
所以,他就發現,“利用一些跟消遣相關的搜尋組合,
就能追踪失業率,而且是預測失業率最佳模式的一部分。”


大數據的第二種力量是,提供了誠實的數據
在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,
人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。
但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,
但是在互聯網上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。

“大數據使我們終於可以看清人們真正想要什麼和真正做了什麼,
而不是人們說自己要什麼和做了什麼。”
知名投資人彼得·蒂爾說過,偉大的企業建立在秘密之上。
可能是關於自然的秘密,也可能是關於人的秘密。
人的秘密,指的是跟自己有關但自己卻不知道,或者不想讓別人知道的事。
舉個例子,流媒體公司奈飛,曾經讓用戶設置一個自己以後想看的電影播放列表。
奈飛發現,用戶確實會把電影添加到這個列表中,
但是,儘管奈飛會提醒用戶看這些電影,用戶卻很少真的去看。
因為,人們說自己想要的,跟自己實際想要的不一致。
後來,奈飛不再要求用戶告訴自己他們想看什麼電影,
而是根據用戶點擊和觀看的數據建立一個模型,用模型來推測用戶想看什麼電影。
結果,用戶果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。

所以,奈飛前數據科學家澤維爾·艾瑪特里安說:算法比你更了解你自己。


大數據的第三種力量是,讓我們可以把焦點放在人口中的一個很小的子集,去進行研究。
當然,這要求對小的子集,也有大數據量。
打個比方,為了將照片的一小部分放大後還能看清楚,照片需要有很高的像素。
同樣,為了能夠清楚放大檢視數據的小子集,每一個小子集中都需要大量的數據。
比如,某一個球隊有多受1978年出生的男性的歡迎。
只對幾千人進行的小調查,樣本根本不夠大,1978年出生的男性人數肯定不夠多。
這樣做的意義在什麼地方呢?
作者通過數據研究發現,是否成為一個球隊的粉絲,
跟這個球隊在一個人特定年齡段的表現有關係。
如果在一個人對運動最痴迷、最容易喜歡上某項運動的時間段,
這個球隊的表現越好,那它獲得這個年齡段的球迷就越多。
而且,美國人政治觀點的形成也類似。
很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。
其中,形成政治觀點最重要的年紀是18歲。
受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。
反之亦然。 “大數據允許我們有意義地放大檢視數據集的細部,獲取新的洞察。”

第四種力量是,允許研究者進行因果關係實驗。
大數據可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。
這種測試在很多互聯網公司被稱作是A/B測試。
臉書(Facebook)每天能進行上千次A/B測試。
所謂的A/B測試,指的是,
在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,
收集數據,來評估出用戶更喜歡的版本
比如,兩個標題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。
有一個網站的CEO說:“你不能假設任何事,必須針對每件事都進行測試才行”,
“如果我們了解人性,根據我們的生活經驗就能判斷答案是什麼,那麼測試就不會有價值。
但事實上,我們不了解人性,所以測試才這麼有價值。”
這種方法,互聯網公司已經大量使用,而現在和將來,社會科學家也可以使用,
從而把以往模糊的研究,變得更科學。

本期內容改寫自:《數據、謊言與真相》
《Everybody Lies:Big Data,New Data ,and What the Internet Can 
Tell Us About Who We Really Are 》
作者:賽斯·史蒂芬斯-大衛德維茨(Seth Stephens-Davidowitz)



---------------------------------------------------
摘要:
數據集的大小經常被高估。
其實所需要的數據集的大小,跟數據本身的效果、數據的真實程度等都有關。

舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。
但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。
原因就在於,熱爐子本身的效果強度很高,因此,只需要一項數據,就能顯現出結果。
谷歌的數據之所以這麼有價值,
其實原因也不完全是因為谷歌能拿到的龐大的數據量,
還因為,人們在自己的電腦上輸入關鍵詞、進行搜索時,都很誠實。
他們不需要考慮社交壓力、周圍人的眼光等等。
你未必總是需要大數據,才能得出重要見解,你需要正確的數據。
大數據有四種力量:
1. 提供了新類型的數據。
 比如,包括弗洛伊德在內的思想家,都會從性的角度,來解釋人類的很多行為。
 但是,這些思想家更多還是在觀念層面進行思考。
 而現在,大數據時代的研究者,有了一項讓那些過往思想家羨慕不已的數據:
 人們在互聯網上搜索和觀看色情作品的數據。
 這些獨特的數據來源,能夠讓研究者進入以前只能靠推理和猜測的領域。
 大數據的力量在於,
 重新想像什麼東西有資格成為數據,提供之前從來沒有收集過的信息,讓人們可以研究。
2. 提供了誠實的數據
 在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,
 人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。
 但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,
 但是在互聯網上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。
 舉個例子,流媒體公司奈飛,曾經讓用戶設置一個自己以後想看的電影播放列表。
 奈飛發現,用戶確實會把電影添加到這個列表中,
 但是,儘管奈飛會提醒用戶看這些電影,用戶卻很少真的去看。
 因為,人們說自己想要的,跟自己實際想要的不一致。
 後來,奈飛不再要求用戶告訴自己他們想看什麼電影,
 而是根據用戶點擊和觀看的數據建立一個模型,用模型來推測用戶想看什麼電影。
 結果,用戶果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。
3. 讓我們可以把焦點放在人口中的一個很小的子集,去進行研究
 例如美國人政治觀點的形成,
 很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。
 其中,形成政治觀點最重要的年紀是18歲。
 受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。
 反之亦然。 “大數據允許我們有意義地放大檢視數據集的細部,獲取新的洞察。”
4. 允許研究者進行因果關係實驗
 大數據可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。
 這種測試在很多互聯網公司被稱作是A/B測試。
 臉書(Facebook)每天能進行上千次A/B測試。
 所謂的A/B測試,指的是,
 在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,
 收集數據,來評估出用戶更喜歡的版本。
 比如,兩個標題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。

沒有留言:

張貼留言