我們正處在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)不僅能創(chuàng)造出大量的工作崗位,大數(shù)據(jù)也在推動(dòng)著整個(gè)科技領(lǐng)域向前發(fā)展,包括人工智能領(lǐng)域的研究也需要借助于大數(shù)據(jù),大數(shù)據(jù)的應(yīng)用也是多領(lǐng)域的,包括醫(yī)療、金融、出行、教育等等,所以大數(shù)據(jù)不等于隱私,大數(shù)據(jù)也并不是通過(guò)獲取個(gè)人隱私而牟利。
1、個(gè)人怎樣獲取大數(shù)據(jù)?
謝謝邀請(qǐng)!大數(shù)據(jù)的數(shù)據(jù)來(lái)源主要有三個(gè)渠道,分別是物聯(lián)網(wǎng)系統(tǒng)、傳統(tǒng)信息處理系統(tǒng)以及互聯(lián)網(wǎng)應(yīng)用(Web和App),所以要想獲得大數(shù)據(jù)就要從這三個(gè)渠道來(lái)獲取。物聯(lián)網(wǎng)系統(tǒng)產(chǎn)生的數(shù)據(jù)占據(jù)著大數(shù)據(jù)中的重要比例,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,包括視頻、音頻、傳感數(shù)據(jù)等等,物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域眾多,比如工業(yè)物聯(lián)網(wǎng)、農(nóng)業(yè)物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、智慧城市等都會(huì)產(chǎn)生大量的數(shù)據(jù),通常情況下這些數(shù)據(jù)的采集都是有嚴(yán)格要求的,是不能開(kāi)放給個(gè)人的。
如果個(gè)人要想獲得這部分?jǐn)?shù)據(jù),一個(gè)比較可行的方案是跟數(shù)據(jù)采集者進(jìn)行合作,比如做數(shù)據(jù)分析等業(yè)務(wù),傳統(tǒng)信息系統(tǒng)涵蓋的領(lǐng)域非常廣泛,有政務(wù)系統(tǒng)、企業(yè)ERP、教育信息系統(tǒng)、醫(yī)療信息系統(tǒng)等等,傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)多以結(jié)構(gòu)化數(shù)據(jù)為主,而且往往有較高的精確度和關(guān)聯(lián)關(guān)系,這部分?jǐn)?shù)據(jù)的價(jià)值密度也是相對(duì)比較高的。但是傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)往往涉及到個(gè)人隱私、商業(yè)機(jī)密等內(nèi)容,所以這部分內(nèi)容通常是受到嚴(yán)密保護(hù)的,
隨著大數(shù)據(jù)技術(shù)的發(fā)展,業(yè)界對(duì)于政務(wù)系統(tǒng)的數(shù)據(jù)開(kāi)放的呼聲越來(lái)越高,經(jīng)過(guò)脫敏的數(shù)據(jù)往往并不會(huì)對(duì)個(gè)人隱私構(gòu)成侵犯,所以未來(lái)某些政務(wù)系統(tǒng)的大數(shù)據(jù)會(huì)陸續(xù)開(kāi)放出來(lái)?;ヂ?lián)網(wǎng)應(yīng)用也是產(chǎn)生大數(shù)據(jù)的重要基礎(chǔ)之一,包括各種Web應(yīng)用以及大量的App產(chǎn)品,這部分?jǐn)?shù)據(jù)多以半結(jié)構(gòu)化為主,數(shù)據(jù)內(nèi)容也存在真假難辨的情況,但是由于這部分?jǐn)?shù)據(jù)的價(jià)值密度相對(duì)還是比較高的,所以現(xiàn)在不少互聯(lián)網(wǎng)公司就是基于這些數(shù)據(jù)對(duì)用戶進(jìn)行“畫像”,從而進(jìn)行多維度的分類,
隨著這些互聯(lián)網(wǎng)產(chǎn)品采集的數(shù)據(jù)越來(lái)越多,用戶的“畫像”也會(huì)越來(lái)越清晰,大數(shù)據(jù)分析結(jié)果也會(huì)越來(lái)越準(zhǔn)確。對(duì)于個(gè)人用戶來(lái)說(shuō),要想獲得這部分?jǐn)?shù)據(jù),有三個(gè)辦法,一個(gè)是自己開(kāi)發(fā)互聯(lián)網(wǎng)應(yīng)用,另一個(gè)是對(duì)目前的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行爬取,最后是與互聯(lián)網(wǎng)公司開(kāi)展合作,這樣也能拿到一部分?jǐn)?shù)據(jù),雖然現(xiàn)在大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)開(kāi)始逐漸落地,很多傳統(tǒng)信息系統(tǒng)之間也形成了互聯(lián)互通,但是數(shù)據(jù)流通依然有大量的環(huán)節(jié)需要打通,一定程度上的“數(shù)據(jù)孤島”現(xiàn)象依然存在。
2、都說(shuō)現(xiàn)在是大數(shù)據(jù)時(shí)代,那么如何獲取自己想要的數(shù)據(jù)呢?
隨著大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)的價(jià)值得到了越來(lái)越多的關(guān)注,要想充分利用大數(shù)據(jù),首先需要有數(shù)據(jù)來(lái)源,因此信息采集就成為了一個(gè)非常重要的環(huán)節(jié),通常情況下,采集信息有以下幾個(gè)渠道:第一:傳統(tǒng)信息系統(tǒng)。傳統(tǒng)信息系統(tǒng)采集的信息往往具有較高的價(jià)值,一方面原因是傳統(tǒng)信息系統(tǒng)采集的往往是結(jié)構(gòu)化數(shù)據(jù),易于統(tǒng)計(jì)和分析,另一方面原因是傳統(tǒng)信息系統(tǒng)采集的數(shù)據(jù)往往是比較重要的數(shù)據(jù),對(duì)后續(xù)的數(shù)據(jù)分析有重要的參考價(jià)值,
傳統(tǒng)信息系統(tǒng)包含的內(nèi)容比較廣泛,比如常見(jiàn)的ERP系統(tǒng)。對(duì)于企業(yè)來(lái)說(shuō),傳統(tǒng)信息系統(tǒng)的建設(shè)應(yīng)該是信息化建設(shè)的第一步,第二:Web平臺(tái)。信息來(lái)源的另一個(gè)重要渠道是各種Web平臺(tái),隨著Web應(yīng)用的普及,尤其是Web2.0的普及應(yīng)用之后,整個(gè)Web系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)也是大數(shù)據(jù)系統(tǒng)的重要數(shù)據(jù)來(lái)源之一,
Web系統(tǒng)的數(shù)據(jù)具備幾個(gè)典型的特點(diǎn),比如數(shù)量大、結(jié)構(gòu)多樣性、真假難辨等等,這就需要通過(guò)數(shù)據(jù)分析來(lái)進(jìn)一步體現(xiàn)其價(jià)值了。第三:物聯(lián)網(wǎng)系統(tǒng),物聯(lián)網(wǎng)與大數(shù)據(jù)的關(guān)系非常緊密,物聯(lián)網(wǎng)系統(tǒng)的普及應(yīng)用是產(chǎn)生大數(shù)據(jù)的重要原因之一,大數(shù)據(jù)的大部分?jǐn)?shù)據(jù)來(lái)源就是物聯(lián)網(wǎng)系統(tǒng)。通常情況下,物聯(lián)網(wǎng)系統(tǒng)有五層結(jié)構(gòu),分別是設(shè)備、網(wǎng)絡(luò)、平臺(tái)、分析處理和服務(wù)應(yīng)用,設(shè)備往往是數(shù)據(jù)的來(lái)源,
與傳統(tǒng)信息系統(tǒng)和Web系統(tǒng)不同,物聯(lián)網(wǎng)的數(shù)據(jù)大部分都是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),要想對(duì)其進(jìn)行分析需要采用特定的處理方式,比較常見(jiàn)的處理方式包括批處理和流處理。批處理比較常見(jiàn)的平臺(tái)包括Hadoop和Spark,而流處理通常采用SparkStreaming、Storm等,除了以上幾個(gè)比較常見(jiàn)的信息采集渠道之外,通過(guò)線下活動(dòng)進(jìn)行信息采集也是一種獲取信息的手段和方式。