關於孤立點分析在稅務審計上的發展運用

欄目: 稅務 / 釋出於: / 人氣:5.15K

孤立點分析在稅務審計上的發展運用

引言

審計作為一種獨立性的經濟監督活動，對被審計單位相關經濟活動具有特有的制約和促進作用。審計的職能就是通過對資料的檢查，監察財務收支的真實、合法性，總結效益情況，同時發現和揭示重大問題或風險隱患。近年來，隨著經濟建設的不斷髮展，稅務審計的任務也越來越重，在日積月累的資料量的不斷增加下，使用原有的審計也難以滿足實際要求。隨著審計技術運用的不斷深入，內部審計人員感覺可發現的審計線索少了，問題越來越隱蔽。而以往的分析技術傾向於發現個案的存在，但對審計物件的整體風險情況無法進行全面的把握。對審計部門困擾的主要有以下問題，一是由於各單位業務逐步出現了高度電子化，資料海量化，關注廣泛化，產品衍生化，環境多樣化的情況，讓審計效率明顯降低。二是審計在其執行過程中，所用的工具和程式都是基於事先的審計假設，而審計假設則是由審計人員通過以往的正常情況或者發展趨勢進行人工分析得出判斷和說明，但是由於個人的經驗和知識是有限的，隨著時間的發展，業務流程的更新，產品和技術的產生，造成了模型相對滯後，對面新的情況和海量的資料著手困難[1]。針對這些問題，人們逐步開始利用資料探勘技術來進行解決。本文主要描述基於資料探勘的孤立點分析在稅務審計方向上的發展與運用。

1 資料探勘技術資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。它可以進行歷史資料的查詢和遍歷，發現數據倉庫中物件演變特徵或對象發展趨勢，也能找出過去資料潛在的關係，從而進行資訊的挖掘，還可以根據過去的資料對未來進行預測和分類。資料探勘與傳統的資料分析的本質區別就是資料探勘是在沒有明確假設的前提下去挖掘資訊、發現知識。資料探勘現階段在稅務審計中主要應用了聚類技術、分類與預測技術、關聯技術、孤立點發現技術等等[2]。

2 孤立點的定義與產生

2.1 孤立點的定義孤立點分析是資料探勘中的一個重要研究方向。利用資料探勘技術可以在海量的資料處理過程中獲得一般模型，但這些資料並不是全部適用於這個一般模型，比如一些特殊值。這些不符合一般資料模型的資料從資料處理的目的來說可能就是資料整體的孤立資料、異常資料、偏差資料或者噪聲資料。它們也有它們的共同特性，就是與海量資料中的其他資料有著明顯的不一致，這些資料，我們統稱為孤立點。一般的孤立點分析在資料探勘中存在兩個基本任務：一是在給定的資料集合中定義什麼樣的資料可以被認為不一致的；二是找到一個有效的方法來挖掘這樣的孤立點[3]。

2.2 孤立點的產生孤立點的產生原因是多方面的，簡單來說，可以歸納為以下幾個方面：二是人為欺詐行為所致。為了某種目的而直接對資料進行違背事實的更改或者新增，造成資料值與實際情況有很大區別。個別單位虛報的統計資料就屬於此類。三是由於儀器或者裝置出錯導致。在資料採集過程中測量儀器或者裝置難免不會受到外界的影響而使得采集到的資料出現錯誤。四是資料系統的變化或者故障。資料系統在執行或者搬遷的時候，可能因為個別不可預料的操作對其中的資料造成影響。比如資料庫的搬遷，恢復時出現小範圍報錯的情況。五是資料發生自然偏差導致。事物是不斷髮展和變化的，在這個過程中是符合自然規律的，而這些變化和發展也會對其中的資料產生影響。比如同一個公司裡職員升職為經理後工資就會高出不少，但這些變化卻是合理的存在從上面的原因來看，孤立點不論是怎麼產生的，都並不是毫無意義的異常資料。這些孤立點資料對總結海量資料得出一般模型不會產生積極作用，但從這些估計點進行分析卻能夠獲取到有價值的資訊。作為稅務審計人員，就應該特別重視孤立點資料，從中深究出審計線索。

3 孤立點在稅務審計上的運用因為稅務審計業務的性質，決定了在稅務審計中運用資料探勘技術來對海量資料的孤立點進行分析能夠取得比較好的審計線索，從而達到審計的目的。在稅務審計工作中，通過基於資料探勘的孤立點分析來查詢審計線索特徵主要分為以下三個步驟。

3.1 尋找孤立點的資料準備資料的準備可以分為三個主要步驟：一是資料選取，二是資料預處理，三是資料變換。資料選出主要是為了確定目標任務的操作物件，它是根據使用者的需要從原始資料庫抽取出來的一部分表和欄位。所以在資料選取之前先要對具體的審計事項進行分析，綜合資料字典和資料說明文件對資料的含義和業務流程等方面的情況進行分析，對資料的產生有個全面的瞭解。資料預處理是一個相當耗費時間的過程，它包括資料噪聲的消除、缺值資料的推導與計算、重複記錄的處理、資料型別的轉換等等。比如在處理空值和噪聲時一般可以採取如下幾個方法：一是均值法，即用資料庫中該屬性已知的屬性填充，具體為當前點k（k可自定義）個不為空的資料點的平均值來替換。二是平滑法，假設當前資料點是噪聲資料或者空值，則取出當前點a個（a可自定義）不為空的資料點的加權平均值來替換。三是預測法，採取迴歸、擬合、插值、歸納等方法，推斷空值或噪聲資料屬性最可能的取值。四是統計頻率法，此法既適用離散資料，也可用於經過離散化的連續資料的資料缺損處理，假如資料庫中的屬性存在有噪聲資料或者空值，屬性a的'值域為{，，……，}，P（）表示值在該系統中出現的頻率。可以用最大出現頻率的值max{P（）}進行填充[4]。資料變換的主要目的則是資料維數消減，主要可分為兩種：一種是從有關變數中消除無關、弱相關或冗餘的維，尋找一個變數子集來構建模型，即子集選擇策略；另一種就是把p個原始變數變換為p′個變數，即資料變換策略。

3.2 可疑孤立點的檢測一般來說，孤立點的發現可以分為以下幾種：一是基於統計的孤立點檢測方法。這種方法是將全部的資料集合假設成一個概率模型，根據模型再採用不一致性檢測來尋找和確立孤立點。基於統計的孤立點檢測挖掘方法比較簡單，實現起來也相對容易，但它的缺點也比較明顯，就是大部分的檢測僅對資料分佈滿足一定概率分佈的數值型單維資料集較為有效，然而許多采用資料探勘技術就是要求在多維空間中發現孤立點的。同時，統計學的方法要求關於資料集合引數的知識，但是，這引數有可能是未知的。當沒有特定的檢驗時，該類方法不能確保所有的孤立點被發現。二是基於距離的孤立點檢測方法。為了能夠解決基於統計的孤立點檢測方法的實用性侷限，拓寬在多維資料上的應用，Knorr和NG引入了基於距離的孤立點的概念，他們認為如果某個點與資料集中大多數點之間的距離都超過了某個閥值，這個點就是孤立點[5]。但他們的這種方法也有著不足：閥門需要使用者自己合理設定，使得產生了比較大的人工介入和干預。我們比較用到的基於距離的孤立點演算法有：Cell-based演算法、Index-based演算法和Nested-loop演算法。三是基於密度的孤立點檢測方法。它是在基於距離的方法基礎上建立起來的，根據資料點之間的距離引數以及某一給定範圍內的資料點的個數引數結合在一起就是密度的概念。基於密度的孤立點檢測能夠很好的檢測出基於距離所不能夠識別的區域性孤立點，也不容易遺漏掉周圍的孤立點資料。四是基於聚類的孤立點檢測方法。這種方法主要是指在資料探勘的聚類過程中，在產生有意義的聚類資訊的同時產生的多餘孤立點資料。在聚類過程中，演算法會將資料集中異常的資訊作為噪音而忽略掉，雖然不利於異常資訊的檢測，但它掃描資料集效率非常高，適用於現在的海量資料。五是基於偏離的孤立點檢測方法。基於偏離的孤立點檢測時通過對檢測資料集的主要特徵來確定孤立點的，與指定的主要特徵描述不一致的所有資料集都會被認為是孤立點。比較常見的基於偏離的孤立點檢測技術是序列異常技術和OLAP資料立方體技術[6]。

3.3 可疑孤立點的判斷接下來就需要對找出的孤立點進行人工分析，看是否為疑點資料。發現的孤立點雖然都符合挖掘的條件，但不一定對稅務審計工作有利用價格。比如，有些孤立點雖然是異常的，但卻是合理資料，有些孤立點雖然是異常的，但影響卻非常小，達不到需要關注的水平。這些都需要審計人員根據業務的目的進行具體問題具體分析，從而從中選出適合的孤立點資料。再對初步選擇出來的疑點資料進行審計專業判斷，通過專業的辦法最終確定審計線索。常見的方法主要有：一是審閱法，它主要是指對各種書面、電子資料的檢查。通過審閱法，可以對孤立點有關的其它資料（包括經濟資訊材料等等）進行審閱，來確認該孤立點是否屬於問題資料。二是復演算法，復演算法主要指通過對有關資料的重新整理和計算，以驗證其結論是否可靠的一種方法。根據實際情況，通過對檢測出的可疑孤立點進行再次計算，多次重複來確認該孤立點是不是問題資料。三是存檔法，存檔法指的是通過對財產物質的清點、計算，驗證可疑孤立點的資料的真實性。四是函證法，因為被審計單位的業務不可能是孤立的存在，肯定會跟其它的單位有著各種各樣的聯絡，所以，可以傳送函件給其它單位，來驗證資料是否合理，確定孤立點是否為問題資料。

4 結論總之，運用一定的資料探勘演算法對被審計的海量資料採取聚類或其它的檢測方法，找出資料的一般規律，篩選出孤立點，並以圖、表等方式展現給審計人員，審計人員就能根據專業知識和方法判斷其正確性與合理性，經過多次的挖掘、分析、判斷，最終建立確定適合的審計線索。基於資料探勘技術的孤立點分析可以大大縮小搜尋審計線索的範圍，幫助審計人員及時發現違紀線索，增強審計人員的資料分析能力，大幅度提高審計工作的質量和效率，對行業依賴度較低並具有一定的通用性。因此，包括孤立點分析在內的資料探勘技術在審計領域必將能得到更多的運用和發展。

Tags：稅務孤立審計