當前,數(shù)據(jù)作為最重要、最有價值的生產(chǎn)要素之一,已經(jīng)成為組織機構(gòu)最核心的資產(chǎn)。為激活數(shù)據(jù)要素價值,數(shù)據(jù)分發(fā)共享、委托處理的場景和范圍日益增加,數(shù)據(jù)面臨的泄露、竊取等風險也日趨嚴峻。數(shù)據(jù)水印作為一種保障數(shù)據(jù)安全的重要技術(shù)手段,可以在數(shù)據(jù)遭到泄露、竊取后,通過提取水印信息,證明數(shù)據(jù)的所有權(quán),并定位泄露源頭進而實現(xiàn)溯源追責。
水印技術(shù)分為明水印和暗水印。明水印是將水印信息(員工姓名、員工號、時間、公司名稱或logo等信息)覆蓋在保護目標之上,可被肉眼觀察到的水印,可應(yīng)用于前端頁面敏感數(shù)據(jù)的展示、桌面水印和打印水印等方面,起到警示和震懾作用。暗水印是將水印信息(數(shù)據(jù)所有者版權(quán)信息、分發(fā)單位名稱、接收單位名稱、分發(fā)時間、數(shù)據(jù)用途、員工姓名、員工號等信息)隱藏在載體數(shù)據(jù)中,不易被肉眼觀察到的水印,可應(yīng)用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的分發(fā)共享、票務(wù)防偽、隱蔽通信等場景,起到溯源追責、數(shù)據(jù)確權(quán)(版權(quán)保護)等作用。數(shù)據(jù)水印是一種暗水印。本文分析和探討了數(shù)據(jù)水印的嵌入和溯源過程、常見技術(shù)方法、場景應(yīng)用等方面。
JR/T 0223—2021《金融數(shù)據(jù)安全 數(shù)據(jù)生命周期安全規(guī)范》中定義數(shù)據(jù)水印是指從原始環(huán)境向目標環(huán)境進行敏感數(shù)據(jù)交換時,通過一定的方法向數(shù)據(jù)中植入水印標記,從而使數(shù)據(jù)具有可識別分發(fā)者、分發(fā)對象、分發(fā)時間、分發(fā)目的等因素,同時保留目標環(huán)境業(yè)務(wù)所需的數(shù)據(jù)特性或內(nèi)容的數(shù)據(jù)處理過程。
定義中所指的‘水印標記’即上文提到的水印信息。植入水印信息的數(shù)據(jù)不僅可識別分發(fā)者(可證明數(shù)據(jù)所有權(quán))、分發(fā)對象(可追溯數(shù)據(jù)泄露責任方)、分發(fā)時間、分發(fā)目的等因素,還具有可證明真?zhèn)危ㄈ缙眲?wù)防偽)等能力。此外,添加水印信息的數(shù)據(jù)不影響目標環(huán)境業(yè)務(wù)使用。
2.2數(shù)據(jù)水印技術(shù)要求
1)魯棒性:含水印信息的數(shù)據(jù)遭到惡意攻擊后,數(shù)據(jù)所有方仍可以完整提取出水印信息;
2)完整性(高仿真、低污染、透明性):嵌入水印信息的過程中,無需修改源數(shù)據(jù),保證源數(shù)據(jù)的完整性;
3)安全性:在未知水印溯源參數(shù)的情況下,攻擊者很難對嵌入的水印信息進行偽造和修改;
4)可檢測性:可通過水印溯源算法從嵌入水印信息的數(shù)據(jù)中提取水??;
5)可逆性:嵌入水印信息的數(shù)據(jù)可通過專業(yè)工具去除水印,且不會對源數(shù)據(jù)造成破壞。
2.3數(shù)據(jù)水印實現(xiàn)形式
數(shù)據(jù)水印實現(xiàn)形式一般有如下幾種:
1)數(shù)據(jù)庫水印,即原始數(shù)據(jù)庫與添加水印后的數(shù)據(jù)庫類型一致。數(shù)據(jù)水印系統(tǒng)支持的數(shù)據(jù)庫類型一般有Oracle、MySQL、SQLServer等關(guān)系型數(shù)據(jù)庫,hadoop、hive 等大數(shù)據(jù)和組件,達夢等國產(chǎn)數(shù)據(jù)庫;
2)非結(jié)構(gòu)化數(shù)據(jù)水印或文件水印,即對文件、圖像、視頻等添加水印。數(shù)據(jù)水印系統(tǒng)支持的文件類型一般有txt、csv等;
3)異構(gòu)水印,包含異庫水印(即原始數(shù)據(jù)庫與添加水印后的數(shù)據(jù)庫類型不一致,如Oracle到MySQL)、文件到數(shù)據(jù)庫水印、數(shù)據(jù)庫到文件水印。
數(shù)據(jù)水印作為一種保障數(shù)據(jù)安全的重要技術(shù)手段,在各行業(yè)得到了普遍重視和應(yīng)用,當前已在電信、金融、政務(wù)等行業(yè)和地方標準中被廣泛提及。
1)《電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)水印技術(shù)要求與測試方法》(報批稿)
該標準適用于電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)的水印,給出了數(shù)據(jù)水印技術(shù)應(yīng)用架構(gòu),總結(jié)了水印嵌入和水印溯源過程,并提出了數(shù)據(jù)水印的效果評估原則。
2)《JRT 0223-2021 金融數(shù)據(jù)安全 數(shù)據(jù)生命周期安全規(guī)范》
3)《DB11/T 2049-2022 政務(wù)大數(shù)據(jù)安全技術(shù)框架》(北京市地方標準)
數(shù)據(jù)水印技術(shù)應(yīng)用
4.1常見數(shù)據(jù)水印實現(xiàn)方法
常見的數(shù)據(jù)水印實現(xiàn)方法如下表所示。
1)普通空格(U+0020),最常用的空格,在英文輸入法(或中文輸入法半角狀態(tài))下由鍵盤空格鍵直接輸出;
2)不間斷空格(U+00A0, ),html里比較常見的空格,當存在多個空格時,可以禁止瀏覽器合并空格;
3)零寬空格(U+200B),不占位,廣泛適用于富文本編輯器中,用于格式阻斷;
4)全寬空格(U+3000),與一個漢字同寬;
5)半寬空格(U+2002),常用于對齊的目的,如將三個漢字和四個漢字的兩邊對齊;
6)發(fā)寬空格(U+200A),像頭發(fā)一樣窄,常用于Mac電腦中。
借助以上空格,可以將二進制水印比特位1和0嵌入到文件數(shù)據(jù)中,如‘U+0020’代表1,‘U+200B’代表0,每隔一個字符或文字插入一個代表1或0的空格,完成水印的嵌入過程,如圖1所示。
圖1 空格水印算法數(shù)據(jù)水印嵌入示意圖
1)將原始載體圖像的像素值由十進制轉(zhuǎn)換成二進制;
2)用二進制水印比特位的1和0替換目標載體圖像的最低比特位;
3)將含有水印信息的二進制數(shù)據(jù)轉(zhuǎn)換為十進制像素值,從而得到含水印信息的圖像。
圖2 最低比特位水印算法數(shù)據(jù)水印嵌入示意圖
1)人為在數(shù)據(jù)庫表中添加若干行,每個字段按源數(shù)據(jù)形式填充內(nèi)容;
2)選擇帶有數(shù)字的字段(如身份證號碼、電話號碼、金額等)嵌入水印信息。
圖3 偽行水印技術(shù)構(gòu)造偽行示意圖
1)從屬性列資源庫中選擇與原有屬性列相關(guān)聯(lián)的屬性進行添加,如客戶消費記錄表包含‘賬單編號’、‘消費時間’、‘消費金額’三個屬性列,則選擇‘支付方式’比選擇‘工作單位’隱蔽性更好;
2)向構(gòu)造的偽列中嵌入水印信息。
圖4 偽列水印技術(shù)構(gòu)造偽列示意圖
場景一:對外分發(fā)共享場景中的數(shù)據(jù)確權(quán)和溯源追責
數(shù)據(jù)對外分發(fā)共享包括向合作方、外包方等第三方分發(fā)共享以及向行業(yè)主管部門進行數(shù)據(jù)共享等場景。向第三方共享數(shù)據(jù)場景下,可能存在數(shù)據(jù)接收方轉(zhuǎn)賣數(shù)據(jù)、開發(fā)利用數(shù)據(jù)進而獲取利益等行為,嚴重損害組織機構(gòu)利益,此種情況下如何證明對數(shù)據(jù)的所有權(quán)?此外,同一份數(shù)據(jù)往往涉及多個數(shù)據(jù)接收方,如果其中一方由于安全失責導(dǎo)致了數(shù)據(jù)泄露,如何進行溯源追責?
為降低數(shù)據(jù)分發(fā)共享場景中的數(shù)據(jù)安全風險,可以在管理手段(合同協(xié)議、審批授權(quán)等)的基礎(chǔ)上,根據(jù)數(shù)據(jù)的安全級別采用數(shù)據(jù)水印、脫敏等技術(shù)手段,降低數(shù)據(jù)泄露風險,保障數(shù)據(jù)的機密性。當發(fā)生數(shù)據(jù)泄露時,可借助數(shù)據(jù)水印技術(shù)實現(xiàn)數(shù)據(jù)確權(quán)和溯源追責。
場景二:內(nèi)部人員數(shù)據(jù)泄露場景中的溯源追責
2023年數(shù)據(jù)泄露調(diào)查報告顯示,人為因素是數(shù)據(jù)泄露的主要原因,且五分之一的數(shù)據(jù)泄露來自于內(nèi)部員工。組織機構(gòu)內(nèi)部可能存在因員工的設(shè)備遭受木馬、病毒攻擊而導(dǎo)致數(shù)據(jù)無意泄露,或惡意員工將下載的數(shù)據(jù)文件上傳至互聯(lián)網(wǎng)、非法下載數(shù)據(jù)售賣給第三方等故意泄露行為。
為降低組織機構(gòu)數(shù)據(jù)泄露風險,可以在管理手段(數(shù)據(jù)安全意識培訓(xùn)、合同約束等)的基礎(chǔ)上,采用權(quán)限管理、訪問控制、下載文件時添加數(shù)據(jù)水印等技術(shù)手段,降低數(shù)據(jù)泄露風險,保障數(shù)據(jù)的機密性。當發(fā)生數(shù)據(jù)泄露時,可借助數(shù)據(jù)水印技術(shù)實現(xiàn)溯源追責。
場景三:電子商務(wù)中的票務(wù)防偽
隨著互聯(lián)網(wǎng)技術(shù)、現(xiàn)代交通的快速發(fā)展和智能手機的普及,電子商務(wù)已經(jīng)觸及我們?nèi)粘I畹姆椒矫婷?,并伴隨著電子票據(jù)的大量流通和使用。非法牟利者可利用技術(shù)手段偽造電子票據(jù),從而獲得可觀利益。
為降低電子票據(jù)被偽造風險,可以采用數(shù)據(jù)水印技術(shù)在電子票據(jù)中嵌入防偽信息,票據(jù)驗證方通過掃描電子票據(jù)是否含有防偽信息而證實其真?zhèn)巍?
場景四:利用公共網(wǎng)絡(luò)進行隱蔽通信
當前,人們交流的方式主要為網(wǎng)絡(luò)通信,如何利用公共網(wǎng)絡(luò)安全傳輸信息是關(guān)鍵。發(fā)送方利用加密算法傳遞信息時,由于加密后的數(shù)據(jù)混亂無序,極易引起網(wǎng)絡(luò)攻擊者的注意。攻擊者截獲加密的信息后,如破解成功并進行篡改后再發(fā)送至接收方,可損害信息的機密性和完整性,嚴重危害通信雙方的權(quán)益。利用數(shù)據(jù)水印的隱蔽性特點,發(fā)送方可將要傳遞的信息隱藏在音視頻等多媒體載體中,從而實現(xiàn)隱蔽通信。
利用數(shù)據(jù)水印技術(shù)的隱蔽性特點,發(fā)送方可將信息隱藏在音視頻等多媒體中,從而實現(xiàn)隱蔽通信。
場景五:網(wǎng)絡(luò)數(shù)據(jù)分級標識及管理
數(shù)據(jù)安全分類分級是開展數(shù)據(jù)差異化保護的基礎(chǔ)。當前,很多企業(yè)的數(shù)據(jù)安全分類分級成果停留在文檔清單的程度,很難結(jié)合數(shù)據(jù)的安全級別落地差異化的技術(shù)保護手段,數(shù)據(jù)在存儲、傳輸、使用等處理活動中,仍然存在敏感數(shù)據(jù)泄露等風險。
為落地不同安全級別數(shù)據(jù)的差異化技術(shù)保護手段,可將數(shù)據(jù)的安全級別(如電信行業(yè)劃分為一級、二級、三級、四級共4個安全級別)作為水印信息,嵌入到源數(shù)據(jù)中,以實現(xiàn)對數(shù)據(jù)進行安全級別標識。當含有水印信息的數(shù)據(jù)通過網(wǎng)關(guān)等安全產(chǎn)品時,水印信息被提取,從而獲得源數(shù)據(jù)的安全級別,進而根據(jù)安全級別觸發(fā)差異化的防護手段,如允許非敏感數(shù)據(jù)(如前文所述的一級和二級數(shù)據(jù))外發(fā),攔截敏感數(shù)據(jù)(如前文所述的三級和四級數(shù)據(jù))外發(fā)等。
4.3利用數(shù)據(jù)水印技術(shù)的場景化解決方案
數(shù)據(jù)水印應(yīng)用包含水印嵌入和水印溯源兩個過程。水印嵌入即利用水印添加算法將預(yù)處理(如加密、添加校驗位等)的水印信息嵌入到數(shù)據(jù)庫表數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的過程。水印溯源即利用水印溯源算法從數(shù)據(jù)庫表數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)提取預(yù)處理的水印信息,進而逆處理(如解密、驗證校驗位等)得到原始水印信息的過程。
數(shù)據(jù)水印嵌入流程如圖5所示。
圖5 數(shù)據(jù)水印嵌入示意圖
1)數(shù)據(jù)分發(fā)單位將數(shù)據(jù)庫或非結(jié)構(gòu)化數(shù)據(jù)接入數(shù)據(jù)水印系統(tǒng),建議將敏感數(shù)據(jù)的下載過程也接入數(shù)據(jù)水印系統(tǒng);
2)創(chuàng)建水印信息:如數(shù)據(jù)水印的目的是數(shù)據(jù)確權(quán),水印信息為數(shù)據(jù)所有單位的版權(quán)信息;如數(shù)據(jù)水印的目的是溯源追責,水印信息可包含分發(fā)單位名稱、接收單位名稱、分發(fā)時間、數(shù)據(jù)用途等信息;或者組合以上信息,同時用于數(shù)據(jù)確權(quán)和溯源追責,解決場景一的安全風險;內(nèi)部人員下載敏感數(shù)據(jù)時添加的水印信息是員工姓名、員工號、下載時間、單位名稱等信息,解決場景二的安全風險;票務(wù)防偽場景下添加的水印信息是防偽信息,解決場景三的安全風險;隱蔽通信場景下添加的水印信息是待傳遞的秘密信息,解決場景四的安全風險;網(wǎng)絡(luò)數(shù)據(jù)分級標識及管理場景中添加的水印信息是數(shù)據(jù)的安全級別,以落地場景五的網(wǎng)絡(luò)數(shù)據(jù)差異化技術(shù)保護。水印信息內(nèi)容確定后,繼續(xù)選擇水印算法,文本水印一般基于不可見字符水印算法、空格水印算法,圖像水印一般基于最低比特位水印算法,數(shù)據(jù)庫水印一般采用偽行或偽列水印算法;
3)創(chuàng)建水印任務(wù):根據(jù)數(shù)據(jù)接收方的需求選擇數(shù)據(jù)水印載體(如數(shù)據(jù)庫同庫水印、非結(jié)構(gòu)化數(shù)據(jù)水印、異構(gòu)水印等),并關(guān)聯(lián)水印信息;
4)運行水印任務(wù):數(shù)據(jù)水印系統(tǒng)預(yù)處理水印信息,預(yù)處理源數(shù)據(jù)(如對數(shù)據(jù)庫表的元組或?qū)傩粤羞M行排序以防止排序攻擊,同時通過遺傳算法、螢火蟲算法等確定添加水印的最佳位置),并通過水印嵌入算法,向數(shù)據(jù)載體添加水印。
完成水印信息嵌入后,數(shù)據(jù)分發(fā)方將數(shù)據(jù)載體發(fā)送至數(shù)據(jù)接收方,此過程需同時采用身份鑒別、脫敏、傳輸加密、日志記錄等技術(shù)手段。
數(shù)據(jù)水印溯源流程如圖6至圖9所示。
1)數(shù)據(jù)所有單位或分發(fā)單位將疑似泄露數(shù)據(jù)接入數(shù)據(jù)水印系統(tǒng)。票務(wù)防偽場景下,電子票據(jù)的驗證方將電子票據(jù)接入數(shù)據(jù)水印系統(tǒng);隱蔽通信場景下,數(shù)據(jù)接收方將水印數(shù)據(jù)接入數(shù)據(jù)水印系統(tǒng);網(wǎng)絡(luò)數(shù)據(jù)分級標識及管理場景下,網(wǎng)關(guān)等安全產(chǎn)品調(diào)用或集成數(shù)據(jù)水印系統(tǒng),以實現(xiàn)水印信息提??;
2)水印溯源:數(shù)據(jù)水印系統(tǒng)識別數(shù)據(jù)載體的水印位置并提取預(yù)處理的水印信息,進而逆處理提取出水印信息。
數(shù)據(jù)所有單位通過提取水印信息(數(shù)據(jù)所有單位版權(quán)信息)證明其對數(shù)據(jù)的所有權(quán),數(shù)據(jù)分發(fā)單位通過提取水印信息(分發(fā)單位名稱、接收單位名稱、分發(fā)時間、數(shù)據(jù)用途等)定位數(shù)據(jù)泄露的責任主體,如圖6所示,以上兩方面可實現(xiàn)場景一下的數(shù)據(jù)確權(quán)和溯源追責。數(shù)據(jù)所有單位通過提取水印信息(員工姓名、員工號、下載時間、單位名稱等)定位數(shù)據(jù)泄露的內(nèi)部員工,如圖6所示,從而實現(xiàn)場景二下的溯源追責。
圖6 對外分發(fā)共享和內(nèi)部人員泄露場景下的數(shù)據(jù)水印溯源示意圖
電子票據(jù)的驗證方通過提取水印信息(防偽信息)驗證電子票據(jù)的真?zhèn)?,如圖7所示,從而實現(xiàn)場景三下的票務(wù)防偽。
圖7 票務(wù)防偽場景下的數(shù)據(jù)水印溯源示意圖
數(shù)據(jù)接收方通過提取水印信息獲取秘密信息,如圖8所示,從而實現(xiàn)場景四下的隱蔽通信。
圖8 隱蔽通信場景下的數(shù)據(jù)水印溯源示意圖
數(shù)據(jù)通過網(wǎng)關(guān)等安全產(chǎn)品時,通過提取水印信息,獲得源數(shù)據(jù)的安全級別,進而根據(jù)安全級別觸發(fā)差異化的防護手段,如圖9所示,從而實現(xiàn)場景五下的網(wǎng)絡(luò)數(shù)據(jù)標識及管理。
圖9 網(wǎng)絡(luò)數(shù)據(jù)分級標識及管理場景下的數(shù)據(jù)水印溯源示意圖
當前,數(shù)據(jù)水印作為重要的數(shù)據(jù)安全技術(shù)手段和數(shù)據(jù)共享流通中的“追蹤器”,將助力企業(yè)實現(xiàn)數(shù)據(jù)確權(quán)和溯源追責。
但數(shù)據(jù)水印技術(shù)尚未成熟,仍存在諸多技術(shù)短板:面向多單位分發(fā)數(shù)據(jù)時便捷性差;水印算法抗攻擊能力低,常見的數(shù)據(jù)庫攻擊有子集添加攻擊、修改攻擊、刪除攻擊、排序攻擊、混合攻擊等;針對短小文本或數(shù)據(jù)庫表的元組數(shù)少的情況,如何在水印嵌入容量(增大嵌入容量可提高魯棒性)和隱蔽性之間尋找平衡;各安全廠商數(shù)據(jù)水印算法各異,僅依賴算法保密性來保障安全性等等。諸多的技術(shù)短板亟需業(yè)內(nèi)人士予以關(guān)注和技術(shù)攻關(guān)。
轉(zhuǎn)載自:數(shù)據(jù)安全共同體計劃