『壹』 大數據分析的四類陷阱
大數據分析的四類陷阱
科技領域的人們正摩拳擦掌以迎接大數據(Big Data)時代的到來。大數據技術的本質是能夠對數十億的信息進行分析,從中獲得有價值的洞見。例如惠普的研究人員就能根據Twitter來預測好萊塢的票房。由此看來,其它行業只要具備合適的工具,就能對社會網路進行數據分析。但是事情並非如此簡單。首先,分析大數據集並不是什麼新鮮事。有些公司已經做了幾十年的數據分析。當前技術的不同之處在於,它提升了分析的速度,擴展了數據規模,使小型企業也能使用這種技術。而另一方面,大數據也會造成更嚴重的錯誤。針對上例,普林斯頓大學就得出了不同的研究結論:Twitter並不能真的預測票房成績。對同一個問題,研究者怎麼會得出相反的結論呢?我們來看一下數據分析中最常見的四類陷阱。1、樣本缺乏代表性大數據的背景仍是統計分析和推斷。而統計系學生應該學到的一件事就是:統計結論依賴於樣本的代表性。Twitter用戶可能受到更高教育且收入更高,其年齡也會偏大一些。如果用這種有偏的樣本來預測目標觀眾是年輕人的電影票房,其統計結論可能就不會合理了。提示:確保你得到的樣本數據代表了研究總體。否則,你的分析結論就缺乏堅實的基礎。2、事物是變化的對研究對象的科學理解需要耐心。可能你的實驗獲得了預期的效果,但這還不夠。你應該進行後續實驗看能否得到相同的結果,還要看其他研究人員能否重現你的實驗結果。特別是在處理人類個體或團隊行為的時候,這一點尤其重要。這是因為事物在是不斷變化的。惠普和普林斯頓大學的研究項目有兩年的時間間隔,在這段時間中Twitter用戶有可能發生了改變。同樣的道理,如果觀察到公司的增長速度發生變化,這有可能是客戶群的情緒變化,也可能是使用了錯誤的數據收集或分析方法。提示:不要只進行一次分析。要定期驗證你之前的結論。3、理解數據方式不同惠普和普林斯頓的兩組研究人員所看到的數據不僅僅是推文。惠普的研究人員建立了一個模型,來研究電影首映時的發推率和上映影院數量。但上映影院的數量與票房成功之間有很強相關性。而普林斯頓的研究人員使用機器學習技術,來研究在三個不同時間段(影片上映之前、期間或觀影後)用戶的推文情緒特徵(正面或負面)。也就是說,這兩個研究團隊都表示,他們在研究Twitter的預測能力。但實際上,他們除了使用twitter數據之外還利用了其它數據資源,例如上映影院數量和IMDB評分等等。這樣Twitter的預測效果與其它因素混合在一起,它或許是預測票房成功的一種影響因素,這要取決於研究人員如何理解和使用它。提示:一組數據可以提供多種類型的信息。你需要找到不同的解釋方式,並加以分析4、錯誤和偏差人會犯各種錯誤。有可能是某個研究小組出現了某個錯誤。例如試圖將所有的推文都歸為正面或負面的情緒,這種方法也許有些粗糙。又或許研究人員不自覺地選擇數據,以支持他們的論點。例如普林斯頓大學研究人員假設,是推文本身而非推文的數量,蘊含著消費者的情緒表達。提示:不要只使用一種方法。用事實來檢驗你的假設是否奏效。大數據技術能很好的改善企業產品和服務,並更好地滿足市場。但是,信息需要人來解釋,而人的錯誤有時是致命的。所以大數據是一柄雙刃劍,成功與否還得看持劍人的功力。
以上是小編為大家分享的關於大數據分析的四類陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨
『貳』 如何識破「統計學中的陷阱」
如何識破「統計學中的陷阱」?
統計學是關於數量信息的收集、整理和分析的學科。現代社會的公民在很多方面都要受到大量統計數字的困擾,需要具有一定的統計學知識,才能作出明智的決定。如果我們不能正確理解統計數字的涵義,就會產生誤解,從而輕易地上當受騙。下面列舉幾個典型的統計學的陷阱,說明數據也會讓人產生錯覺。
例1輕率的結論
交通部門的統計資料表明,大多數汽車事故出在中等速度的行駛中,極少的事故是出在大於每小時150千米的行駛速度上的。這是否意味著高速行駛比較安全?
分析:當然不是。由於多數人是以中等速度開車,所以多數事故是出在中等速度的行駛中。統計關系往往不能表明因果關系。事實上,由交通部門統計,在高速行駛時發生事故的比例,遠遠高於中速行駛時發生事故的比例。上述例子表明,統計學論述在涉及到因果關系時很容易造成誤解。
例2騙人的平均數
王老闆開了一家生產兒童玩具小工廠。工廠的管理人員是王老闆和他的弟弟。工作人員由2個領工和10個工人組成。現在需要招收1個新工人,王老闆正在與一個叫小史的青年人談招聘問題。王老闆說:「我們這里報酬不錯,平均工資是每月2000元.但在學徒期間每月是1000元,不過很快就可以加工資。」小史上了幾天班以後,要求和廠長談談。小史說:「你騙我!我已經和其他工人核對過了,沒有一個人的工資超過每月1200元。平均工資怎麼可能是一個月2000元呢?」王老闆皮笑肉不笑地回答:「小史,不要激動嘛。平均工資確實是2000元,不信你自己算一算。」王老闆拿出一張表,說道:「這是我每月付出的酬金。我得6000元,我弟弟得4000元,2個領工每人得3000元,10個工人每人得1200元。總共是每月28000元,付給14個人,對嗎?」「對,對,你是對的,平均工資是每月2000元。可你還是騙了我。」
分析:在這個故事裡,狡猾的王老闆利用小史對統計數字的誤解騙了他。小史產生誤解的根源在於,他不了解平均數的確切含義。平均數這個詞往往是算術平均值的簡稱,是一個很有用的統計學度量指標。然而,如果有少數幾個比較大的數,平均數就會給人錯誤的印象。
類似的會引起誤解的例子有很多。例如,一家公司報告說其公司的策略是由股東們民主制定的。因為它的50個股東共有600張選票,平均每人12票。可是,如果其中45個股東每人只有4票,而另外5人每人有84張選票,平均數確實是每人12票。可是,只是這5個人就完全控制了這家公司。
例3 奇怪的選舉
假定有張、王、李三個同學競選班長。民意測驗表明,選舉人中有願意選張不願選王,有願意選王不願選李。問:是否願意選張不願選李的多?
分析:直觀感覺的答案顯然是肯定的。其實不一定!
現在對他們進行兩兩的比較:張和王的民意測驗情況是:張有兩次在王的前面,而王只有一次排在張的前面,因而張可以說,選舉中有人喜歡我;王和李的民意測驗情況是:王有兩次排在李的前面,而李只有一次排在王的前面,因而王可以說,選舉中有人喜歡我;李和張的民意測驗情況是:李有兩次排在張的前面,而張只有一次排在李的前面,因而李也可以說,選舉中有人喜歡我。
奇怪的選舉使人迷惑的地方是我們以為「好惡」關系總是可以傳遞的,就像a>b,b>c可以推出a>c那樣。但事實上,「好惡」關系是不可以傳遞的。這個例子說明,在對兩個以上事物作兩兩對比選擇時,有可能產生矛盾。
『叄』 讀完統計數據的陷阱求你說說陷阱 何在為什麼統計數劇有陷阱
這個問題是這樣——
統計數據只要是根據真實樣本、科學程序、准確計算得出的,那麼,數據本身不存在陷阱;之所以會被認為有陷阱,是因為使用統計數據的人對數據本身所蘊含的信息理解不夠完整、不夠深刻,誤以為存在陷阱。例如:龍淵中學初三(1)班男生的平均身高和女生的平均身高,基本相同。
這個統計數據,不僅僅要看數據本身,還需要看是哪一屆、男生人數、女生人數以及基本相同的相差范圍等,如果僅僅看數據,就會導致很多錯誤的認識。
『肆』 使用數據進行決策時要避免3個陷阱
使用數據進行決策時要避免3個陷阱
如今,數據不僅僅是營銷領域的一個流行語。為了實現業務運作良好,企業需要關注如何改進,有效收集和分析數據。如果獲得數據並使用它卻沒有促進改變,那麼收集數據就沒什麼意義了。然而,在解釋和使用數據來做出決策時也存在一些問題。它不像看起來那麼簡單,而且有一些陷阱需要避免。
(1) 錨定和調整
錨定和調整是指放棄錨點或大量投資於某一信息的想法,然後調整錨點。通常,錨點作為一個良好的起點,但數據可能表明應該探索新的途徑,以創造更好的成功。通常情況下,可以在錨點范圍內收集和分析數據,這忽略了錨點本身可能是業務無法正常工作的原因。包括ValueWalk在內的專家在討論投資者對股票市場指數波動的反應以及行為金融如何幫助他們做出決定時,會加強這一點。投資者往往希望被證明是正確的,所以在初步評估中遇到困難,而沒有考慮市場進展的新信息。這種推理當然也擴展到其他應用程序,包括運行業務或實施策略。
(2) 對數據過度自信
當涉及到收集到的數據時,過度自信可能是一個陷阱。熟悉商業決策,豐富的信息數據原因,以及通過分析數據採取行動的事實,都可以結合起來,創造出一種過度自信的場景。這種情況可能會導致失敗。人們對決定越熟悉,就對此感到更加自信。那麼,如果這些數據導致了一個全新的目標定位活動,人們以前沒有實現過,但覺得可以處理它,即使這是一個更難的選擇。而這只是假設是錯誤的。數據給人的印象是人們有很多信息可供使用,但創建人們需要的結果並不總是有意義的。通過分析數據,人們覺得取得了進展。數據應該導致超出人們已經知道的新想法——否則,人們可能會過度自信。
(3) 因果關系與相關性
在收集和分析數據時,最重要的陷阱可能是不考慮因果關系和相關性的差異。因果關系指出X是因為Y而發生的,而相關性僅指向X和Y之間的關系。高收入和社會媒體參與之間可能存在相關性,但這並不一定意味著社交媒體的參與是高收入的原因。通過確定哪些是從哪個而不是對虛假因果作出決定,可以根據數據作出正確的決定和建議。
收集數據是有原因的,只有在分析准確的情況下才能正確地使用數據。考慮到可能導致結果傾斜的問題,因此,建議從數據中分離出來,企業可以確保它們朝著正確的方向發展。
『伍』 從谷歌流感趨勢談大數據分析的光榮與陷阱
從谷歌流感趨勢談大數據分析的光榮與陷阱
本文從谷歌流感趨勢2009年前後表現差異談起,討論了大數據分析容易面臨的大數據自大、演算法演化、看不見的動機導致數據生成機制變化等陷阱,以及對我國大數據產業發展的借鑒。本文認為,為健康發展大數據產業,我國需要防範大數據自大風險、推動大數據產業和小數據產業齊頭並進,並強化提高大數據透明度、審慎評估大數據質量等方面的努力。?
一、谷歌流感趨勢:未卜先知?
「谷歌流感趨勢」(Google Flu Trends,GFT)未卜先知的故事,常被看做大數據分析優勢的明證。2008年11月谷歌公司啟動的GFT項目,目標是預測美國疾控中心(CDC)報告的流感發病率。甫一登場,GFT就亮出十分驚艷的成績單。2009年,GFT團隊在《自然》發文報告,只需分析數十億搜索中45個與流感相關的關鍵詞,GFT就能比CDC提前兩周預報2007-2008季流感的發病率。
也就是說,人們不需要等CDC公布根據就診人數計算出的發病率,就可以提前兩周知道未來醫院因流感就診的人數了。有了這兩周,人們就可以有充足的時間提前預備,避免中招。多少人可以因為大數據避免不必要的痛苦、麻煩和經濟損失啊。
此一時,彼一時。2014年, Lazer等學者在《科學》發文報告了GFT近年的表現。2009年,GFT沒有能預測到非季節性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報告的流感發病率。高估有多高呢?在2011-2012季,GFT預測的發病率是CDC報告值的1.5倍多;而到了2012-2013季,GFT流感發病率已經是CDC報告值的雙倍多了。這樣看來,GFT不就成了那個喊「狼來了」的熊孩子了么。那麼不用大數據會如何?作者報告,只用兩周前CDC的歷史數據來預測發病率,其表現也要比GFT好很多。
2013年,谷歌調整了GFT的演算法,並回應稱出現偏差的罪魁禍首是媒體對GFT的大幅報道導致人們的搜索行為發生了變化。Lazer等學者窮追不舍。他們的估算表明,GFT預測的2013-2014季的流感發病率,仍然高達CDC報告值的1.3倍。並且,前面發現的系統性誤差仍然存在,也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素,GFT還是病得不輕。
為什麼傳說中充滿榮光的大數據分析會出現如此大的系統性誤差呢?從大數據的收集特徵和估計方法的核心,我們可以探究一二。
二、新瓶裝舊酒:過度擬合
大數據時代的來臨,為數據收集帶來了深刻變革。海量數據、實時數據、豐富多樣的非結構數據,以前所未有的廣度進入了人們的生活。但是不變的是,在統計分析方法上,數據挖掘(Data mining)仍然是統計分析的主要技術。而數據挖掘中最引人注目的過度擬合(overfitting)問題,由於下文提到的各類陷阱的存在,遠遠沒有解決。
我們先用一個故事來解釋何為過度擬合。假設有一所叫做象牙塔的警官學校致力於培養抓小偷的警察。該校宣稱,在他們學校可以見到所有類型的普通人、也能見到所有類型的小偷;到他們學校來學習就能成為世界上最厲害的警察。但是這所學校有個古怪,就是從不教授犯罪心理學。
象牙塔的教學方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學員要做的是,根據自己從前九組中了解到的小偷特徵,從第十組中找出小偷。比如學員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那麼在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之後,學校再將人群打散重新分成十組,如此循環往復,之後學校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最准根據前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。
一段時間後,問題來了:象牙塔最棒警察在象牙塔校內總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現,甚至比從來沒有來象牙塔學習的人還要差。
在這個故事裡,象牙塔最棒警察就相當於根據大數據的數據挖掘方法、機器學習之後挑選出來的最優模型。小偷相當於特定問題需要甄選出的對象,比如得流感的人、不幹預就會自殺的人、賴賬的人。前九組的人就相當於用於訓練模型的訓練數據;第十組人則相當於檢驗訓練結果的檢驗數據。不教授犯罪心理學就意味著抓小偷並不需要理解小偷為什麼會成為小偷,類似於在數據分析中只關心相關關系而不關注因果關系。訓練最佳警察的過程,就類似於運用機器學習技術, 採用訓練數據來訓練模型,然後採用檢驗數據來選擇模型,並將預測最好的模型作為最佳模型,用於未來的各類應用中 。
最後,警察在象牙塔內能快速抓小偷而校外不能,就是過度擬合問題。由於在學校通過多次重復練習,學員小偷的特徵已經爛熟於心,因此無論怎麼隨機分,都能快速找到小偷並且不出錯;這就相當於訓練模型時,由於已經知道要甄選人群的特徵,模型能夠對樣本內觀測值作出很好的擬合。由於象牙塔學校判斷小偷的標准主要看外部特徵而不去理解內在原因,比如小偷常戴鴨舌帽,那麼當社會人群里的小偷特徵與象牙塔人群有很大差別時,比如社會上的小偷更常戴禮帽,在象牙塔內一抓一個準的鴨舌帽標准,到社會就變成一抓一個錯了。也就是說,在樣本內預測很好的模型,到樣本外預測很差。 這,就是過度擬合的問題。
從過度擬合角度,可以幫助我們理解為什麼GFT在2009年表現好而之後表現差。在2009年,GFT已經可以觀察到2007-2008年間的全部CDC數據,也就是說GFT可以清楚知道CDC報告的哪裡發病率高而哪裡發病率低。這樣,採用上述訓練數據和檢驗數據尋找最佳模型的方法時標准就很清晰,就是不惜代價高度擬合已經觀察到的發病率。 Lazer 等人發現,GFT在預測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個數據點的情況。
2009年之後,該模型面對的數據就真正是未知的,這時如果後來的數據特徵與2007-2008年的數據高度相似,那麼GFT也該可以高度擬合CDC估計值。但現實是無情的,系統性誤差的存在,表明GFT在一些環節出了較大偏差而不得不面對過度擬合問題。
從上面的故事可以看到,產生過度擬合有三個關鍵環節。第一,象牙塔學校認定本校知道所有普通人與所有小偷的特徵,也就等於知道了社會人群特徵。第二,象牙塔學校訓練警察,不關心小偷的形成原因,而關注細致掌握已知小偷的特徵。第三,象牙塔學校認為,不論時間如何變化,本校永遠能保證掌握的普通人和小偷的行為特徵不會發生大規模變動、特別是不會因為本校的訓練而發生改變。
在大數據這個新瓶里,如果不避開下面的三個陷阱,就仍然可能裝著數據挖掘帶來的過度擬合舊酒:大數據自大、演算法演化、看不見的動機導致的數據生成機制變化。
三、大數據分析的挑戰
(一)陷阱一:「大數據自大」
Lazer等學者提醒大家關注 「大數據自大(big data hubris)」的傾向,即認為自己擁有的數據是總體,因此在分析定位上,大數據將代替科學抽樣基礎上形成的傳統數據(後文稱為「小數據」)、而不是作為小數據的補充。
如今,大數據確實使企業或者機構獲取每一個客戶的信息、構成客戶群的總體數據成為可能,那麼說企業有這樣的數據就不需要關心抽樣會有問題嗎?
這里的關鍵是,企業或者機構擁有的這個稱為總體的數據,和研究問題關心的總體是否相同。《數據之巔》一書記載了下面這個例子:上世紀三十年代,美國的《文學文摘》有約240萬讀者。如果《文學文摘》要了解這個讀者群的性別結構與年齡結構,那麼只要財力人力允許,不抽樣、直接分析所有這240萬左右的數據是可行的。但是,如果要預測何人當選1936年總統,那麼認定「自己的讀者群」這個總體和「美國選民」這個總體根本特徵完全相同,就會差之毫釐謬以千里了。事實上,《文學雜志》的訂戶數量雖多,卻集中在中上層,並不能代表全體選民。與此相應,蓋洛普根據選民的人口特點來確定各類人群在樣本中的份額,建立一個5000人的樣本。在預測下屆總統這個問題上,採用這個小數據比採用《文學文摘》的大數據,更准確地把握了民意。
在GFT案例中,「GFT採集的搜索信息」這個總體,和「某流感疫情涉及的人群」這個總體,恐怕不是一個總體。除非這兩個總體的生成機制相同,否則用此總體去估計彼總體難免出現偏差。
進一步說,由於某個大數據是否是總體跟研究問題密不可分,在實證分析中,往往需要人們對科學抽樣下能夠代表總體的小數據有充分認識,才能判斷認定單獨使用大數據進行研究會不會犯「大數據自大」的錯誤。
(二)陷阱二:演算法演化
相比於「大數據自大」問題,演算法演化問題(algorithm dynamics)就更為復雜、對大數據在實證運用中產生的影響也更為深遠。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發布的信息來判斷他們對風險的態度,其中和尚遇到老虎的次數是甄別他們是否喜歡冒險的重要指標。觀察一段時間後該團隊發現,小和尚智空原來遇到老虎的頻率大概是一個月一次,但是從半年前開始,智空在朋友圈提及自己遇到老虎的次數大幅增加、甚至每天都會遇到很多隻。由於大數據分析不關心因果,研究團隊也就不花心思去追究智空為什麼忽然遇到那麼多老虎,而根據歷史數據認定小智空比過去更願意冒險了。但是研究團隊不知道的情況是:過去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開。在這個故事裡,由於老和尚的叮囑,智空眼裡老虎的標准變了。換句話說,同樣是老虎數據,半年前老虎觀測數量的生成機制,和半年後該數據的生成機制是不同的。要命的是,研究團隊對此並不知情。
現實中大數據的採集也會遇到類似問題,因為大數據往往是公司或者企業進行主要經營活動之後被動出現的產物。以谷歌公司為例,其商業模式的主要目標是更快速地為使用者提供准確信息。為了實現這一目標,數據科學家與工程師不斷更新谷歌搜索的演算法、讓使用者可以通過後續谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業上非常必要,但是在數據生成機制方面,卻會出現使用者搜索的關鍵詞並非出於使用者本意的現象。
這就產生了兩個問題:第一,由於演算法規則在不斷變化而研究人員對此不知情,今天的數據和明天的數據容易不具備可比性,就像上例中半年前的老虎數據和半年後的老虎數據不可比一樣。第二,數據收集過程的性質發生了變化。大數據不再只是被動記錄使用者的決策,而是通過演算法演化,積極參與到使用者的行為決策中。
在GFT案例中,2009年以後,演算法演化導致搜索數據前後不可比,特別是「搜索者鍵入的關鍵詞完全都是自發決定」這一假定在後期不再成立。這樣,用2009年建立的模型去預測未來,就無法避免因過度擬合問題而表現較差了。
(三)、陷阱三:看不見的動機
演算法演化問題中,數據生成者的行為變化是無意識的,他們只是被頁面引導,點出一個個鏈接。如果在數據分析中不關心因果關系,那麼也就無法處理人們有意識的行為變化影響數據根本特徵的問題。這一點,對於數據使用者和對數據收集機構,都一樣不可忽略。
除掉人們的行為自發產生系統不知道的變化之外,大數據的評估標准對人們行為的影響尤為值得關注。再以智空為例。假定上文中的小和尚智空發現自己的西瓜信用分遠遠低於自己好友智能的西瓜信用分。智空很不服氣,經過仔細觀察,他認為朋友圈言論可能是形成差異的主因。於是他細細研究了智能的朋友圈。他發現,智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護環境、貼心靈雞湯,並定期分享自己化齋時遇到慷慨施主的事。雖然在現實中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風格大變,而不久後他也滿意地看到自己的西瓜信用分大幅提高了。
如今,大數據常常倚重的一個優勢,是社交媒體的數據大大豐富了各界對於個體的認知。這一看法常常建立在一個隱含假定之上,就是人們在社交媒體分享的信息都是真實的、自發的、不受評級機構和各類評估機構標准影響的。但是,在互聯網時代,人們通過互聯網學習的能力大大提高。如果人們通過學習評級機構的標准而相應改變社交媒體的信息,就意味著大數據分析的評估標准已經內生於人們生產的數據中,這時,不通過仔細為人們的行為建模,是難以准確抓住的數據生成機制這類的質變的。
從數據生成機構來看,他們對待數據的態度也可能發生微妙的變化。例如,過去社交媒體企業記錄保存客戶信息的動機僅僅是本公司發展業務需要,演算法演化也是單純為了更好地服務消費者。但隨著大數據時代的推進,「數據為王」的特徵越來越明顯,公司逐漸意識到,自己擁有的數據逐漸成為重要的資產。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產生更為重要的影響力。這時就不能排除數據生成機構存在為了自身的利益,在一定程度上操縱數據的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調查,就有可能對一個國家的政治走向產生影響。而民意調查語言的表述、調查的方式可以影響調查結果,企業在一定程度上就可以根據自身利益來操縱民意了。
簡而言之,天真地認為數據使用者和數據生成機構都是無意識生產大數據、忽略了人們行為背後趨利避害的動機的大數據統計分析,可能對於數據特徵的快速變化迷惑不解,即便看到模型預測表現差,也難以找到行之有效的克服方法。
四、前車之鑒
目前,我國高度重視大數據發展。2015年8月31日,國務院印發《促進大數據發展行動綱要》,系統部署大數據發展工作。《綱要》認為,大數據成為推動經濟轉型發展的新動力(310328,基金吧)、重塑國家競爭優勢的新機遇,和提升政府治理能力的新途徑。《綱要》指出,2018年底前,要建成國家政府數據統一開放平台,率先在信用、交通、醫療等重要領域實現公共數據資源合理適度向社會開放。與此相應,近年來多地成立了大數據管理局、業界學界對於大數據的分析利用也予以熱烈回應。因此,了解大數據分析的優勢與陷阱,對我國的經濟發展和實證研究具有極其重要的意義;而GFT項目折射出的大數據使用中可能存在的機會與問題,都值得關注。
(一) 防範「大數據自大」帶來的風險
GFT案例表明,如果認為大數據可以代替小數據,那麼過度擬合問題可以帶來巨大的估計誤差。這一點在「大眾創業、萬眾創新」的今天尤其需要關注。這是因為大數據作為目前「創新」最閃亮的新元素被高度推崇的,而我國經濟處於轉型時期的特徵,使企業或者機構面對的微觀數據不斷發生動態變化。如果在數據挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。
例如,我國P2P網貸行業採用的數據體量雖然大多達不到大數據要求的海量數據,但是不少企業熱衷採用爬蟲等技術從社交媒體挖掘信息用於甄別客戶。這些平台健康狀況,就可能與過度擬合的嚴重程度密不可分。 根據中國P2P網貸行業2014年度運營簡報和2015年上半年的運營簡報,在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平台數,並與2015年6月新增問題平台數作比較。[1]
新增問題平台的大幅增加原因雖然有多方面,但是從數據分析的角度看,由於還沒有合法的數據共享機制,P2P平台在甄別客戶質量時,往往只依靠自身渠道和從社交媒體等挖掘的數據,並採用數據挖掘方法建立相應建立模型。在數據分析中,不少P2P平台往往疏於查考自身樣本的代表性、也忽略宏觀經濟數據和其他微觀數據所包含的信息。由於互聯網金融公司出現時間短、又主要成長於經濟繁榮期,如果單單依賴有限的數據渠道,數據挖掘與機器學習過程對新常態下個體行為沒有足夠的認識,在經濟下行時仍然根據歷史數據而低估逾期率,導致高估平台健康狀況,最終不得不面對問題平台不斷增加的局面。
(二) 大數據和小數據齊頭並進大勢所趨
大數據和小數據各有優劣。簡而言之,小數據通常不會假定該數據就是總體,因此收集數據前往往需要確定收集數據的目標、根據該目標設計的問卷或者收集方法、確定抽樣框。在數據採集後,不同學者往往可以通過將新收集數據與不同數據的交叉驗證,來評估數據的可信度。小數據在收集上有變數定義清晰、數據生成機制基本可控、檢驗評估成本相對較低等優點,但是缺點是數據收集成本高,時間間隔長、顆粒度較粗。
大數據的優勢就包括數據體量大、收集時間短、數據類型豐富,顆粒度很細。但是,由於大數據往往是一些企業和機構經營活動的附帶產品,因此並不是通過精心論證的測度工具生成。另外,由於大數據的體量很大,交叉驗證數據的可信度、不同學者採用相同數據獨立研究以檢驗數據的前後一致性等工作難度較大。這些特點意味著大數據本身未必有科學研究要求的那樣准確、可靠,在數據分析中就需要對大數據適合研究的問題有較清晰的認識。
在與小數據互為補充推動研究與認知方面,大數據大有可為。將大數據與小數據相結合,可以大大提高數據的顆粒度和預測精度。比如對CDC流感發病率的預測研究發現,將GFT採用的大數據和CDC的歷史數據相結合的模型,其預測能力比單獨運用大數據或者小數據要好很多。
大數據往往可以實時生成,對於觀察特定社區的動態具有小數據無可替代的優勢。比如,美國在「九一一」之後,出於快速准確估計在某個特定小社區活動的人口的需要而啟動了「工作單位和家庭住址縱向動態(LEHD)」項目,該項目將人口普查數據、全國公司數據、個人申請失業保險、補貼、納稅等記錄聯通,可以對社區在短時間內的「新陳代謝」作出較為全面的刻畫。
這類的數據結合研究,對於了解我國社會經濟狀況的動態變化會十分重要。一個可能的應用是,將城市人口、工作狀態、性別、年齡、收入等小數據採集的信息,和實時產生的交通狀況相結合,來預測人們的出行特徵,來解決城市交通擁堵、治理霧霾等問題。另一個可能的應用是,推動人民銀行徵信中心個人徵信系統數據和民間徵信系統大數據的結合,建立高質量的中國個人徵信體系。
另外,我國經濟處於轉型時期,有不少政策亟需快速評估政策果效。以小數據為基礎,利用大數據數據量豐富的優勢,可以通過互聯網做一些隨機實驗,來評估一些政策的效果,也是可能的發展方向。
在過去的十多年中,我國在通過非官方渠道採集小數據、特別是微觀實證數據方面取得了長足進展。在多方努力下,更多經過嚴格科學論證而產生的數據可被公眾免費獲得並用於研究。例如,北京大學的「中國健康與養老追蹤調查」、「中國家庭追蹤調查」,都由經濟、教育、健康、社會學等多領域的專家協同參與問卷的設計和數據採集的質控。在這些努力下,小數據的生成機制更為透明,交叉驗證調查數據的可信度等實證研究的必要步驟也更為可行。
但是,目前在小數據的收集和使用、政府和有關機構的小數據開放運用方面,我國還有很大推進空間。只有在對涉及我國基本國情的小數據進行充分學習研究之後,我國學界和業界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握,是評估大數據質量、大數據可研究問題的關鍵,對推進大數據產業健康發展有舉足輕重的作用。
因此在政策導向上,為要實現大數據、小數據相得益彰推動經濟發展的目標,在促進發展大數據的同時也要大力發展小數據相關產業,推動小數據相關研究與合作,使大數據與小數據齊頭並進、互為補充。
(三)提高大數據使用的透明度,加強對大數據質量的評估
大數據面臨的透明度問題遠比小數據嚴重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用於搜索的45個關鍵詞是哪些;雖然谷歌工程師在2013年調整了數據演算法,但是谷歌並沒有公開相應數據、也沒有解釋這類數據是如何搜集的。我國大數據相關企業的數據,也鮮有學者可以獲得並用於做研究的例子。
與透明度相關的就是大數據分析結果的可復制性問題。由於谷歌以外的研究人員難以獲得GFT使用的數據,因此就難以復制、評估採用該數據分析結果的可靠性。因此利用大數據的研究難以形成合力,只能處於案例、個例的狀態。
另外還要注意到,如果數據生成機制不清晰,研究結論難以復制,而演算法演化也表明,最終數據往往成為使用者和設計者共同作用的結果。這種數據生成的「黑箱」特徵,容易成為企業或者機構操縱數據生成過程和研究報告結果的溫床。唯有通過推動大數據的透明化、公開化,我們才能在大數據產業發展之初,建立健康的數據文化。
因此,在大數據時代,為了更好利用大數據,需要採取相關措施,增加在大數據生成過程的透明度方面的努力。例如,採取措施推進數據生成企業在妥善處理隱私信息後,定期公布大數據隨機抽樣數據、要求數據生成企業及時公布數據演算法的變更,鼓勵採用大數據的研究實現可復制性、便於交叉驗證等。
五、結語
目前有些流行觀點認為,在大數據時代,技術容許人們擁有了總體因此抽樣不再重要、另外由於數據挖掘術的進展,只需關心相關關系而不必再關心因果關系。而GFT的實例表明,即便谷歌公司用於GFT計算的是數十億的觀測值,也不能認為谷歌公司擁有了流感人群的總體。誤認為數據體量大就擁有了總體,就無法謙卑結合其他渠道的小數據,得到更為穩健的分析結論。而GFT估計的偏誤原因,從來都離不開人們的主動的行為-- 無論是谷歌公司自己認為的GFT的流行導致更多人使用該搜索、還是Lazer等人認為的演算法變化、丟棄異常值。因此,不明白數據生成機理變化的原因而只看相關關系的後果,於谷歌是GFT的計算偏誤丟了臉,而對熱情地投身於採用大數據到創新、創業中的中國民眾和相關機構來說,則可能是不得不面對事先沒有預備的重大經濟損失。
以上是小編為大家分享的關於從谷歌流感趨勢談大數據分析的光榮與陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨
『陸』 因果分析的五種方法
因果關系的五種方法是求同法、求異法、同異共用法、共變法、剩餘法。
因果關系分析法也叫穆勒五法、溯因法。
因果分析是用於判斷事物之間因果關系的科學分析方法。
『柒』 統計分析中常用的有哪幾種「方法圖」
統計質量控制分析方法之一:排列圖法,利用排列圖尋找影響質量主次因素的一種有效方法。統計質量控制分析方法之二:統計調查表法,利用專門設計的統計表對質量數據進行收集、整理和粗略分析質量狀態的一種方法。統計質量控制分析方法之三:直方圖法,將收集到的質量數據進行分組整理,繪製成頻數分布直方圖,用以描述質量分布狀態的一種分析方法。統計質量控制分析方法之四:分層法,將調查收集的原始數據,根據不同的目的和要求,按某一性質進行分組、整理的分析方法。統計質量控制分析方法之五:因果分析圖法,利用因果分析圖來系統整理分析某個質量問題(結果)與其產生原因之間關系的有效工具。統計質量控制分析方法之六:控制圖,用途主要有兩個:過程分析,即分析生產過程是否穩定。過程式控制制,即控制生產過程質量狀態。統計質量控制分析方法之七:相關圖,在質量控制中它是用來顯示兩種質量數據之間關系的一種圖形。以上就是統計質量控制的幾種分析方法及用途,它不僅適用於質量控制,更可應用於一切管理過程。採用統計質量控制的這幾種方法可以幫助企業在質量控制上真正作到"事前"預防和控制。
『捌』 如何避免數據分析中的統計陷阱
數據分析(Data Analysis)
數據分析概念
數據分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發數據資料的功能,發揮數據的作用。是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
數據也稱觀測值,是實驗、測量、觀察、調查等的結果,常以數量的形式給出。
數據分析與數據挖掘密切相關,但數據挖掘往往傾向於關注較大型的數據集,較少側重於推理,且常常採用的是最初為另外一種不同目的而採集的數據。
數據分析的目的與意義
數據分析的目的是把隱沒在一大批看來雜亂無章的數據中的信息集中、萃取和提煉出來,以找出所研究對象的內在規律。
在實用中,數據分析可幫助人們作出判斷,以便採取適當行動。數據分析是組織有目的地收集數據、分析數據,使之成為信息的過程。這一過程是質量管理體系的支持過程。在產品的整個壽命周期,包括從市場調研到售後服務和最終處置的各個過程都需要適當運用數據分析過程,以提升有效性。例如J.開普勒通過分析行星角位置的觀測數據,找出了行星運動規律。又如,一個企業的領導人要通過市場調查,分析所得數據以判定市場動向,從而制定合適的生產及銷售計劃。因此數據分析有極廣泛的應用范圍。
數據分析的功能
數據分析主要包含下面幾個功能:
1. 簡單數學運算(Simple Math)
2. 統計(Statistics)
3. 快速傅里葉變換(FFT)
4. 平滑和濾波(Smoothing and Filtering)
5. 基線和峰值分析(Baseline and Peak Analysis)
數據分析的類型
在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重於在數據之中發現新的特徵,而驗證性數據分析則側重於已有假設的證實或證偽。
探索性數據分析:是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基(John Tukey)命名。
定性數據分析:又稱為「定性資料分析」、「定性研究」或者「質性研究資料分析」,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者說資料)的分析。
數據分析步驟
數據分析有極廣泛的應用范圍。典型的數據分析可能包含以下三個步:
1、探索性數據分析,當數據剛取得時,可能雜亂無章,看不出規律,通過作圖、造表、用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在數據中的規律性。
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。
3、推斷分析,通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數據分析過程實施
數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。
一、識別信息需求
識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。識別信息需求是管理者的職責管理者應根據決策和過程式控制制的需求,提出對信息的需求。就過程式控制制而言,管理者應識別需求要利用那些信息支持評審過程輸入、過程輸出、資源配置的合理性、過程活動的優化方案和過程異常變異的發現。
二、收集數據
有目的的收集數據,是確保數據分析過程有效的基礎。組織需要對收集數據的內容、渠道、方法進行策劃。策劃時應考慮:
① 將識別的需求轉化為具體的要求,如評價供方時,需要收集的數據可能包括其過程能力、測量系統不確定度等相關數據;
② 明確由誰在何時何處,通過何種渠道和方法收集數據;
③ 記錄表應便於使用;
④ 採取有效措施,防止數據丟失和虛假數據對系統的干擾。
三、分析數據
分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有:
老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;
新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;
四、數據分析過程的改進
數據分析是質量管理體系的基礎。組織的管理者應在適當時,通過對以下問題的分析,評估其有效性:
① 提供決策的信息是否充分、可信,是否存在因信息不足、失准、滯後而導致決策失誤的問題;
② 信息對持續改進質量管理體系、過程、產品所發揮的作用是否與期望值一致,是否在產品實現過程中有效運用數據分析;
③ 收集數據的目的是否明確,收集的數據是否真實和充分,信息渠道是否暢通;
④ 數據分析方法是否合理,是否將風險控制在可接受的范圍;
⑤ 數據分析所需資源是否得到保障。
-