淺析大數(shù)據(jù)應(yīng)用模型棧 探索審計(jì)大數(shù)據(jù)新模式
發(fā)布時(shí)間:2012-02-13來源:江蘇省無錫市審計(jì)局作者:朱琢點(diǎn)擊:63040一、引言
21世紀(jì)是一個(gè)信息化的紀(jì)元,它已經(jīng)不能僅僅用信息應(yīng)用高度發(fā)展和信息處理水平飛速來準(zhǔn)確概括。物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、互聯(lián)網(wǎng)+、人工智能等等新型應(yīng)用應(yīng)運(yùn)而生,其領(lǐng)域性和專業(yè)化凸顯,經(jīng)濟(jì)和服務(wù)價(jià)值不斷累積,且被廣泛應(yīng)用,為各界所認(rèn)可。當(dāng)前,大數(shù)據(jù)分析已在電子商務(wù)、統(tǒng)計(jì)預(yù)測(cè)、科學(xué)研究、商業(yè)決策等方面取得了深入融合應(yīng)用,被Gartner Group評(píng)為“十大大戰(zhàn)略技術(shù)趨勢(shì)”和“未來五年十大重要技術(shù)趨勢(shì)”。
大數(shù)據(jù)給國(guó)家審計(jì)領(lǐng)域也帶來了一場(chǎng)深刻的變革。國(guó)家審計(jì)署就大數(shù)據(jù)與審計(jì)工作的融合進(jìn)行了不少嘗試,從金審工程1.0到3.0的發(fā)展步伐中,都能夠看到大數(shù)據(jù)的身影,體現(xiàn)出大數(shù)據(jù)與審計(jì)工作內(nèi)生共融的理念,更好地助力審計(jì)監(jiān)督全覆蓋。2014年,劉家義審計(jì)長(zhǎng)在全國(guó)審計(jì)工作會(huì)議上提出“五個(gè)關(guān)聯(lián)”要求,形象地指出了大數(shù)據(jù)對(duì)于審計(jì)工作的指導(dǎo)性作用,提出大數(shù)據(jù)建設(shè)是應(yīng)對(duì)未來審計(jì)挑戰(zhàn)的重要法寶。
二、現(xiàn)狀
在外部環(huán)境層面,信息化基礎(chǔ)性建設(shè)為大數(shù)據(jù)分析奠定了實(shí)施基礎(chǔ)。國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》提出未來5至10年我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用應(yīng)實(shí)現(xiàn)的目標(biāo)。審計(jì)署牽頭的全國(guó)信息化標(biāo)準(zhǔn)化技術(shù)委員會(huì)起草的GB/T24589《財(cái)經(jīng)信息技術(shù)會(huì)計(jì)核算軟件數(shù)據(jù)接口系列標(biāo)準(zhǔn)》經(jīng)國(guó)家標(biāo)準(zhǔn)委批準(zhǔn)發(fā)布實(shí)施。
在操作應(yīng)用層面,基層審計(jì)工作更多得使用大數(shù)據(jù)分析手段。隨著金審工程應(yīng)用成果的推廣,對(duì)于醫(yī)保、扶貧、保障房、自然資源等重點(diǎn)審計(jì)項(xiàng)目,無錫市審計(jì)局大數(shù)據(jù)應(yīng)用的介入率達(dá)到90%以上,融入到審前、審中、審后各個(gè)階段,開創(chuàng)了數(shù)據(jù)同步建起來、上下內(nèi)外聯(lián)起來、及時(shí)有效用起來的新局面。
然而,經(jīng)過了多年的發(fā)展,審計(jì)大數(shù)據(jù)的發(fā)展也遇到了瓶頸,凸顯出一系列問題。一是大數(shù)據(jù)應(yīng)用內(nèi)容分散,技術(shù)使用層次較低,模型應(yīng)用局限性較大,整合能力欠缺。項(xiàng)目獨(dú)立性過大,項(xiàng)目與項(xiàng)目之間的技術(shù)耦合性低,無法實(shí)現(xiàn)大數(shù)據(jù)的復(fù)用,效率不高。二是大數(shù)據(jù)技術(shù)與時(shí)俱進(jìn)能力不足。基層審計(jì)人員和技術(shù)人員基本使用老的SQL技術(shù)和數(shù)據(jù)分析軟件進(jìn)行大數(shù)據(jù)分析,能夠使用或接觸最新技術(shù)成果的機(jī)會(huì)很少。三是一線大數(shù)據(jù)應(yīng)用復(fù)合型人才儲(chǔ)備不夠。審計(jì)人員要么偏向于更多懂得業(yè)務(wù),要么更偏向于更多懂得技術(shù)。培養(yǎng)復(fù)合型人才、保持復(fù)合型人才隊(duì)伍的穩(wěn)定性是亟待解決的問題。四是基礎(chǔ)性研發(fā)缺失。審計(jì)大數(shù)據(jù)應(yīng)用主要還是聚集在審計(jì)報(bào)告中體現(xiàn)的幾個(gè)疑點(diǎn)數(shù)字,對(duì)于相關(guān)的基礎(chǔ)性研究和開發(fā)關(guān)注的較少。獲取的數(shù)據(jù)質(zhì)量不高,審計(jì)大數(shù)據(jù)應(yīng)用在審計(jì)機(jī)關(guān)內(nèi)部還停留在查詢表面,技術(shù)應(yīng)用板凳深度不夠。五是信息安全管理缺失。大數(shù)據(jù)的使用和存儲(chǔ)都存在信息安全風(fēng)險(xiǎn),缺少專業(yè)的管控技術(shù)和機(jī)制,面對(duì)病毒、黑客的襲擾往往成為驚弓之鳥。信息安全成為懸在大數(shù)據(jù)頭上的達(dá)摩克里斯之劍。
三、模型
學(xué)術(shù)(技術(shù))的發(fā)展規(guī)律都有著一定的客觀相似性。從上世紀(jì)八十年代以來,計(jì)算機(jī)相關(guān)技術(shù)的發(fā)展和應(yīng)用都存在這樣一個(gè)生命周期:嘗試探索,重大突破,成熟穩(wěn)定,整合增效,淘汰躍遷(圖1)。大數(shù)據(jù)應(yīng)用最終也將走上系統(tǒng)整合之路。

圖1
國(guó)際上有7條大數(shù)據(jù)分析應(yīng)用系統(tǒng)組建的原則,首當(dāng)其沖的就是需要一個(gè)優(yōu)秀的結(jié)構(gòu)和框架。傳統(tǒng)的信息處理結(jié)構(gòu)建立在基于DBMS數(shù)據(jù)倉庫或操作性數(shù)據(jù)存儲(chǔ)的單項(xiàng)整合、分析和展現(xiàn)。但是大數(shù)據(jù)的發(fā)展需要的是一種高層級(jí)的分布式并行組合機(jī)制,并結(jié)合NoSQL為代表的實(shí)時(shí)高效回收機(jī)制和Map/Reduce為代表的數(shù)據(jù)嗅探批處理機(jī)制。因此,審計(jì)大數(shù)據(jù)應(yīng)用功能模型棧可以分為五層架構(gòu),由下而上分別為數(shù)據(jù)結(jié)構(gòu)層,數(shù)據(jù)采集層,數(shù)據(jù)轉(zhuǎn)換層,數(shù)據(jù)分析層和數(shù)據(jù)決策層。

(圖2)
1.數(shù)據(jù)結(jié)構(gòu)層
數(shù)據(jù)結(jié)構(gòu)層的本質(zhì)是各類數(shù)據(jù)結(jié)構(gòu)及附屬結(jié)構(gòu)的集合。大數(shù)據(jù)應(yīng)用2.0功能模型棧中的數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)技術(shù)中涉及的數(shù)據(jù)結(jié)構(gòu)的簡(jiǎn)單引用,而是一系列數(shù)據(jù)標(biāo)準(zhǔn)的定義集。由于技術(shù)手段發(fā)展的動(dòng)態(tài)特征,需要不斷定義、補(bǔ)充維護(hù)好一個(gè)標(biāo)準(zhǔn)庫。其中按照數(shù)據(jù)結(jié)構(gòu)類型可細(xì)分為標(biāo)準(zhǔn)型數(shù)據(jù)、非標(biāo)準(zhǔn)型數(shù)據(jù)和校驗(yàn)類數(shù)據(jù)。
標(biāo)準(zhǔn)型數(shù)據(jù)其實(shí)就是當(dāng)前審計(jì)過程中數(shù)據(jù)分析所使用的常用數(shù)據(jù)信息。它包括MS SQL、ACCESS、Oracle、MySQL、DB2、SQLite、達(dá)夢(mèng)等國(guó)內(nèi)外主流數(shù)據(jù)庫文件或備份文件,Excel、ETable等辦公表格文件,CSV、TXT、DAT等平面文本文件,XML、JASON等標(biāo)記語言文件,ERP、SAP、用友軟件等業(yè)務(wù)系統(tǒng)輸出文件。標(biāo)準(zhǔn)型數(shù)據(jù)結(jié)構(gòu)化程度較高,數(shù)據(jù)應(yīng)用面廣泛,使用手續(xù)比較簡(jiǎn)便。國(guó)家在《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中向各單位提出“建立標(biāo)準(zhǔn)規(guī)范體系,推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)標(biāo)準(zhǔn)體系建設(shè)”的要求,為此類數(shù)據(jù)的互聯(lián)互通和廣泛使用奠定了堅(jiān)實(shí)基礎(chǔ)。
非標(biāo)準(zhǔn)型數(shù)據(jù)是大數(shù)據(jù)分析的重點(diǎn)攻堅(jiān)對(duì)象。它包括網(wǎng)頁數(shù)據(jù)、紙質(zhì)表格、多媒體文件等。這些數(shù)據(jù)類型靈活、分布不均很難被直接獲取和使用,但是難以被篡改和消除,具有很強(qiáng)的印證功能。這些數(shù)據(jù)需要通過第三方技術(shù)進(jìn)行初步匯總和解析。當(dāng)前比較成熟的技術(shù)就是Crawler技術(shù)、(TH)OCR技術(shù)和GIS技術(shù),分別實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)媒體、圖像視頻媒體、地理定位的數(shù)據(jù)搜索和整合。當(dāng)前,不少地方審計(jì)局已經(jīng)開始嘗試非標(biāo)準(zhǔn)數(shù)據(jù)的實(shí)際應(yīng)用,在異地審計(jì)和項(xiàng)目工程審計(jì)中探索整合Crawler技術(shù)和GIS技術(shù),大大提升了非標(biāo)準(zhǔn)型數(shù)據(jù)利用率。
校驗(yàn)類數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)層的重要組成部分,是標(biāo)準(zhǔn)型和非標(biāo)準(zhǔn)型數(shù)據(jù)的重要補(bǔ)充,體現(xiàn)出明顯的審計(jì)大數(shù)據(jù)特色。當(dāng)前在審計(jì)工作中獲取有直接難度,集中化使用更是寥寥無幾。校驗(yàn)類數(shù)據(jù)主要由痕跡型數(shù)據(jù)和印證型數(shù)據(jù)組成。前者作用于數(shù)據(jù)訪問和操作的留痕,包括日志記錄和訪問記錄等。它完成了對(duì)大數(shù)據(jù)質(zhì)量和準(zhǔn)確性的校驗(yàn),顯示了數(shù)據(jù)操作的疑點(diǎn)行為,也是打造“審計(jì)免疫系統(tǒng)”的基礎(chǔ)。后者主要完成了數(shù)據(jù)信息的保全,確立了電子信息取證的合法性,降低了與被審計(jì)對(duì)象的法律糾紛風(fēng)險(xiǎn)。
2.數(shù)據(jù)采集層
數(shù)據(jù)采集層位于數(shù)據(jù)結(jié)構(gòu)層之上,反映的是最為基礎(chǔ)的數(shù)據(jù)采集工作流程,在整個(gè)框架中是反映的所有數(shù)據(jù)采集接口及實(shí)現(xiàn)這些接口的方法應(yīng)用。本層更多得涉及系統(tǒng)內(nèi)外、軟硬件之間的交互,并涵蓋各類存儲(chǔ)介質(zhì)及存儲(chǔ)陣列的信息讀取。在當(dāng)前的大數(shù)據(jù)分析過程中,地位比不上數(shù)據(jù)分析、模型建立、案例制訂等后期處理工作,以至于在審計(jì)一線研究和實(shí)踐的較少。其中可粗略分為系統(tǒng)采集接口、網(wǎng)絡(luò)采集接口、個(gè)性化定制接口和信息安全接口。
系統(tǒng)采集接口
系統(tǒng)采集接口主要是針對(duì)管理和存儲(chǔ)標(biāo)準(zhǔn)型數(shù)據(jù),也是最為常見的接口,負(fù)責(zé)大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)輸入。一是當(dāng)前用得比較多的是標(biāo)準(zhǔn)型數(shù)據(jù)管理系統(tǒng)配套的數(shù)據(jù)交換工具,如SQL Server Management Studio,PL/SQL Developer,ERP數(shù)據(jù)導(dǎo)出模塊等。能夠比較簡(jiǎn)單的實(shí)現(xiàn)數(shù)據(jù)的批量采集,使用面廣,在Vbox、Docker等虛擬機(jī)和虛擬容器解決方案的支持下大大降低了運(yùn)行環(huán)境門檻。二是第三方開發(fā)使用的數(shù)據(jù)導(dǎo)入系統(tǒng),如AO、各類會(huì)計(jì)事務(wù)所導(dǎo)賬軟件等。這些使用起來比較靈活,針對(duì)性很強(qiáng),也更加貼近審計(jì)項(xiàng)目的實(shí)際需求,成為審計(jì)機(jī)關(guān)內(nèi)部必備的大數(shù)據(jù)采集利器。
網(wǎng)絡(luò)采集接口
網(wǎng)絡(luò)采集接口實(shí)現(xiàn)了遠(yuǎn)程的網(wǎng)絡(luò)數(shù)據(jù)調(diào)度。它主要是完成對(duì)分布式存儲(chǔ)、云計(jì)算和社交平臺(tái)信息的采集、歸一化和結(jié)構(gòu)化。一方面是實(shí)現(xiàn)對(duì)各類“網(wǎng)頁”信息的采集。可以是文本批量搜索、JS動(dòng)態(tài)頁面、Ajax頁面、Post請(qǐng)求、音樂視頻等多媒體,也可以是當(dāng)前發(fā)展最為迅速的各類社交軟件或是在一定衰減閥值范圍內(nèi)的碼分復(fù)用波段。另一方面是分布式大數(shù)據(jù)流的數(shù)據(jù)處理接口。諸如Sqoop、Flume等HDFS API提供基礎(chǔ)性輸入,以完成實(shí)時(shí)或者接近實(shí)時(shí)地處理大數(shù)據(jù)流,并且具有一定的容錯(cuò)能力。當(dāng)前應(yīng)用比較廣泛的Apache三大框架Storm、Spark、Samza,都是開源的分布式系統(tǒng),具有延遲低、可擴(kuò)展和低容錯(cuò)等諸多優(yōu)點(diǎn),并且提供了簡(jiǎn)單的API來簡(jiǎn)化復(fù)雜度。
個(gè)性化定制接口
個(gè)性化定制是多種接口的綜合,更是審計(jì)大數(shù)據(jù)發(fā)展的實(shí)際需要。當(dāng)前審計(jì)除了傳統(tǒng)監(jiān)督單位,更要從政策落實(shí)和資金、資產(chǎn)、資源的流向擴(kuò)展到相應(yīng)的單位和對(duì)象,數(shù)據(jù)采集維度多,技術(shù)要求高,手續(xù)復(fù)雜。個(gè)性化定制就是通過加強(qiáng)數(shù)據(jù)采集方式方法的研發(fā)來打造更加便捷易用的數(shù)據(jù)采集接口,能夠大大提升各種底層數(shù)據(jù)結(jié)構(gòu)的識(shí)別性和采集的自動(dòng)化程度,解放人力成本及技術(shù)依賴性,實(shí)現(xiàn)從Language、Shell到Script、UI的轉(zhuǎn)變。
信息安全接口
信息安全接口是一套與大數(shù)據(jù)采集相配套的安全管控體制。大數(shù)據(jù)也意味著大責(zé)任,數(shù)據(jù)采集后的保存和銷毀將是大數(shù)據(jù)應(yīng)用無法回避的一個(gè)風(fēng)險(xiǎn)點(diǎn)。一方面要建立完備的信息安全體系,落實(shí)嚴(yán)格的內(nèi)外數(shù)據(jù)物理隔離制度,夯實(shí)入侵檢測(cè)和防范功能。例如在“江蘇省審計(jì)數(shù)據(jù)報(bào)送信息安全制度”中對(duì)于數(shù)據(jù)采集報(bào)送流程進(jìn)行了嚴(yán)格的要求。另一方面,對(duì)于原始數(shù)據(jù)的儲(chǔ)存和銷毀進(jìn)行全方位管控。在加密條件下實(shí)現(xiàn)專人專機(jī)保管,底層碎片化銷毀,確保各類保密、隱私信息無風(fēng)險(xiǎn)、無泄漏。
3.數(shù)據(jù)轉(zhuǎn)換層
數(shù)據(jù)轉(zhuǎn)換層的作用相對(duì)簡(jiǎn)單,是一個(gè)典型的管理型中間件。在兼顧效率和資源的基礎(chǔ)上實(shí)現(xiàn)采集數(shù)據(jù)的整理和調(diào)度。相對(duì)于當(dāng)前使用的審計(jì)大數(shù)據(jù)分析,數(shù)據(jù)轉(zhuǎn)換層更多得面對(duì)機(jī)器學(xué)習(xí)、智能決策和風(fēng)控管理。無論是維度轉(zhuǎn)換、過渡持久化、學(xué)習(xí)容器還是權(quán)限控制,都是為應(yīng)用級(jí)別的大數(shù)據(jù)分析提供面向使用者的數(shù)據(jù)透明。
多維度轉(zhuǎn)換與持久化
多維度轉(zhuǎn)換與持久化其實(shí)是OLAP、OLTP的前期數(shù)據(jù)預(yù)處理。通過在數(shù)據(jù)轉(zhuǎn)換層的預(yù)處理實(shí)現(xiàn)原始采集數(shù)據(jù)的過濾、篩選和維度擴(kuò)展,方便審計(jì)業(yè)務(wù)數(shù)據(jù)對(duì)象的精準(zhǔn)特性并理順業(yè)務(wù)邏輯。常見的解決方案有全自動(dòng)的HIBERNATE,半自動(dòng)的IBATIS和手動(dòng)代碼連接池等。當(dāng)數(shù)據(jù)量膨脹到一定程度,需要一定的程序持久化來保證上層的分析效能和數(shù)據(jù)吞吐量,為分區(qū)、并行、RAC多點(diǎn)技術(shù)提供多級(jí)緩存支撐。對(duì)于離線的現(xiàn)場(chǎng)審計(jì),維度擴(kuò)展和持久化的意義就是為便攜式設(shè)備使用上層應(yīng)用提供效率保證。
權(quán)限控制
權(quán)限控制落實(shí)了大數(shù)據(jù)使用的最小化原則。大數(shù)據(jù)不代表大用戶,反而是數(shù)據(jù)隱私敏感程度要求在規(guī)定的要求下規(guī)畫最小的一個(gè)圈。結(jié)合OA的人員權(quán)限管理機(jī)制,將數(shù)據(jù)權(quán)限同人員權(quán)限直接掛鉤。數(shù)據(jù)轉(zhuǎn)換層將原本應(yīng)用層的權(quán)限控制職能下放到了中間層,達(dá)到了類似從邏輯隔離到物理隔離的防護(hù)功能,再結(jié)合維度重組和過渡持久化,大大提升的權(quán)限控制效果,盡可能降低大數(shù)據(jù)泄漏的相關(guān)風(fēng)險(xiǎn)。
機(jī)器學(xué)習(xí)容器
學(xué)習(xí)容器也就是常說的機(jī)器學(xué)習(xí)平臺(tái)或者是機(jī)器學(xué)習(xí)引擎。在數(shù)據(jù)轉(zhuǎn)換層中學(xué)習(xí)容器就是搭建了連接機(jī)器學(xué)習(xí)應(yīng)用與多維數(shù)據(jù)的橋梁。但是其實(shí)際上是一個(gè)相對(duì)獨(dú)立的運(yùn)行環(huán)境,更像是一個(gè)大數(shù)據(jù)應(yīng)用的容器。對(duì)于常用的機(jī)器學(xué)習(xí)工具scikit-learn,spark MLlib等相關(guān)的底層運(yùn)行容器能夠很好得將Anaconda、hadoop進(jìn)行虛擬化包裝,并且在最大程度上控制運(yùn)維成本。
4.數(shù)據(jù)分析層
數(shù)據(jù)分析層實(shí)現(xiàn)的是最常規(guī),最基礎(chǔ)的大數(shù)據(jù)分析算法,它是數(shù)據(jù)挖掘的凝結(jié)和提煉。當(dāng)前各個(gè)審計(jì)案例中所描述的查詢語句、建模過程、數(shù)據(jù)統(tǒng)計(jì)都是大數(shù)據(jù)分析算法在專門項(xiàng)目上的體現(xiàn),其歸根結(jié)底就是算法模型的海量集合。由于這些算法更多得依賴于數(shù)學(xué)積累,從某種程度上反映出數(shù)據(jù)分析層更應(yīng)該是數(shù)學(xué)模型層。因此,大數(shù)據(jù)應(yīng)用的發(fā)展需要將更多的基礎(chǔ)數(shù)學(xué)和應(yīng)用數(shù)學(xué)的科研成果融入審計(jì)大據(jù)模型棧之中。
異常查詢
數(shù)據(jù)分析最基礎(chǔ)就是對(duì)結(jié)構(gòu)化大數(shù)據(jù)的大批量比較查詢,也就是通常我們按照一定的業(yè)務(wù)邏輯所篩選出的不同、極致和比值。審計(jì)機(jī)關(guān)可以根據(jù)審計(jì)需求,通過關(guān)聯(lián)分析關(guān)聯(lián),在縱向深度上利用信息流、資金流、時(shí)間維度等實(shí)時(shí)跟蹤審計(jì),在橫向主題數(shù)據(jù)范圍拓展審計(jì)單位進(jìn)行批量審計(jì),從而充分利用審計(jì)中合規(guī)性、真實(shí)性數(shù)據(jù)分析結(jié)果,突出關(guān)鍵控制點(diǎn)審計(jì)。在大數(shù)據(jù)模型棧中,直接查詢的最大攻堅(jiān)目標(biāo)是提升多表間的查詢效率,簡(jiǎn)化時(shí)間和空間復(fù)雜程度,降低單機(jī)運(yùn)算負(fù)載最大程度提升其單機(jī)執(zhí)行能力。
標(biāo)準(zhǔn)化建模
標(biāo)準(zhǔn)化建模按照審計(jì)業(yè)務(wù)需求建立不同模型,將最新的統(tǒng)計(jì)學(xué)和應(yīng)用數(shù)學(xué)與審計(jì)業(yè)務(wù)結(jié)合起來,涵蓋關(guān)聯(lián)規(guī)則、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、協(xié)同過濾推薦、決策樹等多種方法。在大數(shù)據(jù)框架中的建模不是平時(shí)審計(jì)項(xiàng)目中的個(gè)例,需要建立一批標(biāo)準(zhǔn)化建模庫,易插拔、易持久,能夠被整個(gè)系統(tǒng)進(jìn)行統(tǒng)一應(yīng)用。標(biāo)準(zhǔn)化建模的另一個(gè)重要職能是進(jìn)行算法的優(yōu)化。諸如協(xié)同進(jìn)化算法等大規(guī)模優(yōu)化算法和WSNs、ITSs等實(shí)時(shí)優(yōu)化算法在大數(shù)據(jù)應(yīng)用中都能起到精簡(jiǎn)時(shí)間和內(nèi)存消耗的成效。
統(tǒng)計(jì)計(jì)算
統(tǒng)計(jì)計(jì)算是大數(shù)據(jù)分析最為基礎(chǔ)的功能,也是大數(shù)據(jù)最明顯的優(yōu)勢(shì)。統(tǒng)計(jì)計(jì)算在大數(shù)據(jù)框架下更依賴于軟件定制開發(fā),需要一定的研發(fā)力量。如何增加統(tǒng)計(jì)復(fù)用性,提升計(jì)算效率,增進(jìn)數(shù)據(jù)質(zhì)量成為大數(shù)據(jù)統(tǒng)計(jì)計(jì)算的關(guān)鍵,也需要進(jìn)一步依賴基礎(chǔ)三層的ETL過濾提純。
5.數(shù)據(jù)決策層
數(shù)據(jù)決策層就是大數(shù)據(jù)相關(guān)的各種決策輔助應(yīng)用:各種軟件、各種服務(wù)、各種系統(tǒng),是大數(shù)據(jù)最前端的展示,也是大數(shù)據(jù)和審計(jì)人員交互的平臺(tái)。“集中分析、發(fā)現(xiàn)疑點(diǎn)、分散核實(shí)、系統(tǒng)研究”的數(shù)字化審計(jì)方式就是大數(shù)據(jù)應(yīng)用在審計(jì)中的直接體現(xiàn),主要有視圖報(bào)表、趨勢(shì)分析、自動(dòng)化系統(tǒng)、人工智能等幾大類。
視圖報(bào)表
視圖報(bào)表是應(yīng)用層最常見的大數(shù)據(jù)分析結(jié)果顯示應(yīng)用。數(shù)據(jù)在前四層完成的基礎(chǔ)上的可視化數(shù)據(jù)體現(xiàn),更多的帶上了趨勢(shì)分析、概率評(píng)估的成果。應(yīng)用層基本上是各類編程前端,可以是B/S,也可以C/S,完全依賴開發(fā)需求。近幾年,諸如審計(jì)數(shù)據(jù)分析中心的使用代表了各類審計(jì)大數(shù)據(jù)展示平臺(tái)的打造已經(jīng)愈發(fā)成熟,從傳統(tǒng)的小數(shù)據(jù)集到復(fù)雜的三維,甚至是四維可視化模式。隨著數(shù)據(jù)范圍的擴(kuò)展,在可視化大數(shù)據(jù)結(jié)果之前,特征壓縮和幾何建模算法能夠很好的降低數(shù)據(jù)體積,幫助可視化視圖的展現(xiàn)。
自動(dòng)化軟件
信息化與自動(dòng)化密不可分。筆者認(rèn)為,直至今日自動(dòng)化在審計(jì)工作中仍大有可為之處。大數(shù)據(jù)應(yīng)用向深入發(fā)展必須依靠自動(dòng)化來降低現(xiàn)場(chǎng)操作難度。可以使用python類的解析語言,幫助各個(gè)功能模型完成自動(dòng)化水平的提升,大大增強(qiáng)單兵作戰(zhàn)能力。這是大數(shù)據(jù)應(yīng)用的重要功能模塊,也是審計(jì)信息化建設(shè)的發(fā)展方向。
人工智能
大數(shù)據(jù)審計(jì)應(yīng)用當(dāng)前在AI方面基本上還是一個(gè)空白,但絕對(duì)是未來大數(shù)據(jù)應(yīng)用的一塊處女地。馬化騰在2017年中國(guó)“互聯(lián)網(wǎng)+”數(shù)字經(jīng)濟(jì)峰會(huì)上表示:“未來就是在云端用人工智能處理數(shù)據(jù)”。在機(jī)器學(xué)習(xí)的基礎(chǔ)之上建立智能分析判斷機(jī)制應(yīng)該成為審計(jì)大數(shù)據(jù)的發(fā)展方向。Map/Reduce、DryadLINQ都可以成為審計(jì)大數(shù)據(jù)的深度機(jī)器學(xué)習(xí)解決方案,SVM和ANN則實(shí)現(xiàn)智能化整合,確保大數(shù)據(jù)AI的高效與精準(zhǔn)。
四、作用
在國(guó)內(nèi),不論BAT、浪潮華為還是移動(dòng)電信都有自己的一套研究方案,也在探索自己的功能模型,并且一擲千金。對(duì)于審計(jì)機(jī)關(guān)而言,大數(shù)據(jù)應(yīng)用功能模型棧的作用是指導(dǎo)性的,或者說是方向性的。
一是發(fā)展現(xiàn)有成果。大數(shù)據(jù)功能模型不是要求另起爐灶,而是在現(xiàn)有信息化建設(shè)和數(shù)據(jù)分析成果上的提升和發(fā)展。現(xiàn)有的審計(jì)模型案例、數(shù)據(jù)分析平臺(tái)、海量數(shù)據(jù)存儲(chǔ)都是未來大數(shù)據(jù)功能模型棧使用的前提和基礎(chǔ)。構(gòu)建一個(gè)完善的功能棧能夠最大程度運(yùn)用好現(xiàn)有的審計(jì)信息化成果,讓大數(shù)據(jù)應(yīng)用建立在近20年審計(jì)工作信息化的基礎(chǔ)之上,大大節(jié)省各類成本投入。
二是融合最新趨勢(shì)。當(dāng)前大數(shù)據(jù)的發(fā)展已經(jīng)體現(xiàn)出專業(yè)化、精細(xì)化、特殊化的新趨勢(shì),各種新算法、新應(yīng)用、新功能層出不窮。大數(shù)據(jù)應(yīng)用功能模型棧從各個(gè)層級(jí)兼容了各類大數(shù)據(jù)分析技術(shù)。無論是底層的采集分析和安全防控,還是上層的機(jī)器學(xué)習(xí)和智能化分析都能夠填補(bǔ)當(dāng)前審計(jì)大數(shù)據(jù)分析的狹義性缺陷,并且從多個(gè)方面墊補(bǔ)了現(xiàn)有大數(shù)據(jù)應(yīng)用在宏觀層面的不足。
三是實(shí)現(xiàn)立體統(tǒng)一。功能整合是大數(shù)據(jù)功能模型棧最本質(zhì)的特點(diǎn),這是一種立體化的有機(jī)整合而不是簡(jiǎn)單的雜糅。在技術(shù)層面,一方面要有足夠的低耦合性,各個(gè)層級(jí)、各個(gè)模塊都遵循自己的一套標(biāo)準(zhǔn)流程,能夠獨(dú)立發(fā)展與更替;另一方面又要實(shí)現(xiàn)整體透明性,對(duì)于審計(jì)主體而言,實(shí)現(xiàn)完全的透明,提供最純粹的大數(shù)據(jù)審計(jì)支撐。在管理層面,持續(xù)推進(jìn)業(yè)務(wù)和制度的統(tǒng)一。各類審計(jì)業(yè)務(wù)數(shù)據(jù)全局共享、全局管理、全局監(jiān)管,全面打通業(yè)務(wù)條線的職能框架,實(shí)現(xiàn)大數(shù)據(jù)層面的一體化。
四是提升審計(jì)效率。提升效率是大數(shù)據(jù)功能模型棧的最終目的。大數(shù)據(jù)功能模型棧貫穿了從數(shù)據(jù)采集到數(shù)據(jù)應(yīng)用的各個(gè)環(huán)節(jié),通過立體化整合提高了復(fù)用程度和操作門檻,打通從數(shù)據(jù)采集、專業(yè)調(diào)度、深度學(xué)習(xí)、智能分析到AI的大數(shù)據(jù)基礎(chǔ),實(shí)現(xiàn)“和審計(jì)人員一樣的方式,但是比審計(jì)人員快無數(shù)倍”的整體功效,讓點(diǎn)對(duì)點(diǎn)的抽查到全覆蓋審查成為新常態(tài)。讓每一個(gè)審計(jì)人員高重復(fù)性的審計(jì)流程中解脫出來,只需要專注于最終的審計(jì)結(jié)果決策。
五、展望
審計(jì)大數(shù)據(jù)功能模型棧是審計(jì)大數(shù)據(jù)2.0模式的基本構(gòu)架,也是下階段審計(jì)信息化建設(shè)的起點(diǎn)。幫助審計(jì)系統(tǒng)內(nèi)部,協(xié)調(diào)數(shù)據(jù)與機(jī)器、數(shù)據(jù)與審計(jì)人員、數(shù)據(jù)與數(shù)據(jù)的三大關(guān)系。
在不久的將來,大數(shù)據(jù)為審計(jì)全覆蓋搭建起智慧的橋梁。到那時(shí),審計(jì)所需要的不是面向單個(gè)業(yè)務(wù)需求的靜態(tài)數(shù)據(jù)分析結(jié)果,而是一種廣義的大數(shù)據(jù)集成應(yīng)用:突破數(shù)據(jù)結(jié)構(gòu)的限制、具有完備的安全管控、多種功能的完美集成、多類模型的高效復(fù)用、友好便捷的操作界面和動(dòng)態(tài)演繹的智能推理。
以上內(nèi)容來自網(wǎng)絡(luò),如有不妥請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容





