日韩精品一区二区三区色欲av,亚洲线精品一区二区三区,精品国产成人亚洲午夜福利,半夜洗澡被老头添一夜

400-650-1086
首頁(yè) > 最新資訊 > IT新聞 > 正文

淺談探索式資料分析 -- 從一個(gè)資安小故事談起

admin 2016-04-19 09:25:05 0

在上一次的分享中,藉由資訊圖表的幫助讓我們對(duì)于《巴拿馬報(bào)告》(Panama Paper)能夠快速又正確的掌握基本訊息,進(jìn)而能夠開始展開對(duì)于資料的詮釋及應(yīng)用——探索式資料分析(Exploratory Data Analysis,簡(jiǎn)稱 EDA),就是運(yùn)用視覺化、基本的統(tǒng)計(jì)等工具,來(lái)“看”一下資料;以期進(jìn)行複雜或嚴(yán)謹(jǐn)?shù)姆治鲋?,能夠?qū)Y料有更多的認(rèn)識(shí)。今天,就以一個(gè)資安小故事,讓我們演練一下在資料分析的方法論中,能夠讓你事半功倍的“探索式資料分析”。

故事是這樣開始的:

Data Genetics 的一位分析人員收到一封朋友寄來(lái)的笑話,信中宣稱“震驚全球的事實(shí)!世界上所有的信用卡 PIN 碼都被破解了!”——接著就列出了一連串從 0000 - 9999 的數(shù)字。(信用卡 PIN 碼其實(shí)就是一組四碼的數(shù)字密碼,在國(guó)外刷卡消費(fèi)時(shí)作為認(rèn)證使用,等同于我們?cè)谂_(tái)灣刷卡時(shí)的簽名這個(gè)動(dòng)作)因?yàn)樗拇a的密碼就只有這一萬(wàn)種組合,所以看到這種“廢文”般的笑話大多數(shù)人當(dāng)然是一笑置之;然而,這引起了這位分析人員的興趣:短短的四個(gè)數(shù)字里面,哪些密碼是最容易被猜中的呢?

現(xiàn)在,讓我們跟著這個(gè)故事,演練在資料分析的方法論中,如何進(jìn)行“探索式資料分析”:

一、資料收集

首先,顯然地 Data Genetics 不是信用卡或銀行單位、也不是專門攻擊這些單位的黑帽駭客;身為一個(gè)資料科學(xué)家,資料的取得是很重要的一環(huán);當(dāng)無(wú)法取得原始資料或是完整資料、資料來(lái)源受到限制的時(shí)候,就必須做出假設(shè),并根據(jù)這些假設(shè)取得合理的資料來(lái)源,透過(guò)適當(dāng)?shù)娜印⒈平蚰M我們的研究對(duì)象。

在這個(gè)故事里,分析人員從各種已經(jīng)公開釋出、曝光或被揭發(fā)的數(shù)字密碼資料庫(kù)與資安漏洞中,過(guò)濾出共三百四十多萬(wàn)筆的四碼數(shù)字密碼,并且假設(shè)人們傾向于在不同情境中使用同一組密碼,將這組資料集作為研究對(duì)象,試著從密碼組成的頻率去分析。

二、基本統(tǒng)計(jì)工具:敘述統(tǒng)計(jì)量

利用基本的統(tǒng)計(jì)工具,可以由組成數(shù)字的頻率直接知道哪一些密碼是最常被使用的,換句話說(shuō),哪些密碼是最容易被猜到的?

分析的結(jié)果,不意外地,老梗的“1234”、“0000”、“6969”等規(guī)律排列堆疊的數(shù)字組合名列前茅。但是,他同時(shí)也發(fā)現(xiàn)有些特別的規(guī)律:例如高居第六名的“1004”在韓文中的讀音接近“天使”(從這點(diǎn)我們也可以推測(cè)該分析人員使用的資料集有部分應(yīng)該來(lái)自韓國(guó))、還有第二十二名的“2580”看起來(lái)毫無(wú)規(guī)律,但是大家只要拿起手機(jī)或看看電話的撥號(hào)鍵,就知道原因了。

三、資料視覺化 v. s. 資訊圖表

即使是簡(jiǎn)單的統(tǒng)計(jì)作圖,也能告訴你很多一眼看不出來(lái)的秘密。不相信嗎?讓我們來(lái)看看幾張讓你秒懂密碼內(nèi)幕的圖表??

可以看到,“19”開頭的出現(xiàn)頻率確實(shí)明顯高過(guò)其他的組合(同時(shí)也看到疊字組合仍是萬(wàn)年不敗);再來(lái)看看所有“19??”的分布:

可能跟出生、或是生活中的重大事件有關(guān),“195X”一直到“198X”的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高過(guò)其他年份,這點(diǎn)也符合直覺——會(huì)使用密碼的族群主要也是在這些年份出生的青壯年人口為主。

矩陣的視覺化一直是個(gè)強(qiáng)大的工具:以四字密碼作為範(fàn)例,可以將其拆成前后兩組兩位數(shù)字的組成,將出現(xiàn)頻率描繪在一個(gè) 100 x 100 的矩陣中。

越偏白黃的顏色就是頻率越高的組合,偏紅黑色即是頻率低的組合。

透過(guò)矩陣的視覺化,我們其實(shí)能夠直接得到前面的圖表中呈現(xiàn)的資訊;換句話說(shuō),矩陣視覺化在同樣的篇幅中,提供了更豐富的資訊。以上面提到的“19XX”模式為例:

可以看到有一排很亮的直線,它代表了“19”開頭的這一排,可以跟前面的“19XX”分布圖做個(gè)對(duì)照,他們其實(shí)是說(shuō)同一件事:可以看成是上圖的高度改成用顏色取代,變成了下圖的一條直線。

除了“19XX”開頭,其實(shí)只要是“1XXX”都是相對(duì)亮的區(qū)域;從矩陣視覺化可以很明顯看出界線;不需要另外繪製一張下圖這樣的相對(duì)頻率分布就可以清楚的指出來(lái)。

將矩陣做灰階處理后,也可以很輕鬆地找出“亮點(diǎn)”,把常見的數(shù)字組合標(biāo)記出來(lái)。

花了不少的篇幅也介紹了幾樣工具,不知道大家有沒有什幺收穫呢?如果對(duì)于最后提到的矩陣視覺化有興趣的朋友,在這邊也推薦中央研究院統(tǒng)計(jì)科學(xué)研究所的陳君厚研究員于 2014 資料科學(xué)愛好者年會(huì)分享的《Collaboration with Statistician? 矩陣視覺化于探索式資料分析》,學(xué)習(xí)愉快!

堅(jiān)信“Data Speaks Louder Than Words”,藉由資料科學(xué)(Data Science)將數(shù)學(xué)帶出象牙塔服務(wù)人群,期望讓數(shù)據(jù)驅(qū)動(dòng)(Data-Driven)的觀念帶動(dòng)各種商業(yè)模式的洗鍊。目前服務(wù)于以數(shù)據(jù)服務(wù)為核心的新創(chuàng)公司,擔(dān)任技術(shù)總監(jiān)。

文章來(lái)源:機(jī)房監(jiān)控 http://www.2hongbao.com

售前咨詢

專線:劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!

電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML

智慧機(jī)房

在線體驗(yàn)

CREATE·機(jī)房監(jiān)控 體驗(yàn)端  用戶名:Admin    密碼:12345 點(diǎn)擊體驗(yàn)
在線咨詢 電話咨詢
宝贝别忍着喷出来嗯啊哦漫画| 人人妻人人澡人人爽欧美一区九九 | 大又大粗又爽又黄少妇毛片| 国产999精品久久久久久| 王妃暗卫肉h共妻大肉| 亚洲精品女同中文字幕| 强壮的公次次弄得我高潮a片日本 夜里十大禁用短视频软件破解版 国产日产久久高清欧美一区 | 亚洲精品国精品久久99热| 人妻丰满熟妇av无码区hd| 亚洲日韩精品欧美一区二区| 亚洲精品一区二区三区蜜臀| 大又大粗又爽又黄少妇毛片| 日本无码小泬粉嫩有套在线| 丰满多毛的大隂户视频| 少妇人妻系列1~100| 亚洲国产精品成人一区二区在线| 两腿间花蒂被吸得肿了视频| 欧美18videosex性欧美| 日本一区二区更新不卡| 性色av一二三天美传媒| 宅宅少妇无码| 亚洲va国产va天堂va久久| 久久久不卡国产精品一区二区| 亚洲日本va中文字幕| 高h之交换小敏系列| 亚洲性啪啪无码av天堂| 亚欧色一区w666天堂| 欧美精品国产综合久久| 猛烈撞击灌满白浊花液h| 精品国产黑色丝袜高跟鞋| 亚洲国产精品久久久久婷婷老年| 快穿名器系统纯肉巨污文直播| 久久免费看少妇高潮v片特黄| 熟女自慰30p| 内射人妻无码色ab麻豆| 丰满白嫩大屁股ass| 中文无码亚洲精品字幕| 久久发布国产伦子伦精品| 息与子五十路孕中文字幕| 天堂在线www| 亚洲日韩一区精品射精|