「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
美國聯邦通訊傳播委員會(FCC)於2009年04月08日宣佈開始推展國家寬頻計劃進程,以達到能使每位美國民眾均有能力負擔與使用寬頻網路的服務。 此項引發廣大爭議的寬頻計畫係植基於2009年的「美國經濟復甦與再投資法」(American Recovery and Reinvestment Act of 2009)─即眾所周知的「振興經濟方案」。在此之前,FCC曾於2007年04月根據1996年電信法第706節發佈法規制定提議意見調查書(NOI,FCC 09-31),希望蒐集各界對於以下四個問題的看法:1.) 何為「先進通訊服務」?;2.) 如何促進美國民眾先進通訊的使用;3.) 目前推動是否合理合時?4.) 何種方式可以更有效推動先進通訊服務發展。 此次,該計畫將獲得72億美元以實現下列要求:1.) 以最有效能與效率的方式確保全美民眾能接近使用寬頻網路服務;2.) 提出人民有能力負擔與寬頻服務最大效用化的策略;3.) 評估目前寬頻推展現狀(包括其他相關的計畫);4.) 如何運用寬頻網路服務以提升消費者權益、公民參與、公眾安全、社區發展、健康照護、能源獨立效率性、教育、員工訓練、私部門投資、企業活動、創造工作機會與經濟成長。 參眾兩院要求FCC必須在2010年02月17日前,將該最終方案遞交眾議院與參議院相關委員會審議。但是,有論者認為目前FCC的計畫與方向並未考量到終端使用者真正需求與如何使用該等科技;同時,歐巴馬政府針對寬頻網路議題未提供足夠的公民思辨機會,最後恐將事倍功半。
新加坡就智慧國家方案提出策略性國家計畫新加坡政府科技局(Government Technology Agency of Singapore, 下稱 GovTech)在2017年8月21號提出智慧國家的5個策略性國家計畫,指出為了建立數位國家,政府將會更加注重基礎建設的整合途徑,未來將聚焦5項計畫: 國家數位身分(National Digital Identity)系統,使市民和工商業可以更加安全與便利的方式進行交易。未來的六個月,在現有的SingPass交易系統上, GovTech將會進行關於行動軟體代碼(software-token)試驗,並在五年後大量適用此種服務。 增進數位支付(e-Payments)功能。新加坡金融管理局(Monetary Authority of Singapore, MAS)將會與銀行和私部門合作,建立各種數位支付管道。例如簡化數位支付並布建統一銷售終端(Unified-Point-of-Sales, UPOS),預計將於18個月內設置25000個終端,使多種銷售方式可透過單一終端進行。 智慧國家感測器平台(Smart Nation Sensor Platform),加速感應器與其他物聯網的布建,使城市更加易居住與安全。GovTech將會建立智慧國家感測器平台,並增進基礎建設與分析能力,並與LTA合作目在未來18個月測試智慧聯網路燈站於選定的區域進行布建,五年內讓蒐集之數據提供工商業發展產品與服務供公眾使用。 建立智慧城市移動(Smart Urban Mobility)交通系統,包含已在2017年中建立的共通車隊管理系統(Common Fleet Management System),將使用數據和數位科技,包含AI和自駕車來增進公眾運輸系統。 生活的時刻(Moments of Life)服務,透過政府間數據共享,跨部門和各種政府相關的數位服務結合,提供市民個人化的數位服務。
BSI公布個人資料管理系統標準之草案英國國家標準組織(British Standard Institution)於2009年1月8日公布個人資料保護管理系統標準(標準標號為DPC BS 10012)之草案,使組織在個人資料儲存管理工作上符合個人資料保護法(Data Protection Act 1998,DPA)之要求。 有鑑於利用個人資料管理系統(personal information management system,PIMS)管理業務上取得之資料之情形日益增多,而觀諸該資料之性質,通常多為DPA所規範定義的「個人資料」。因此,為使個人資料管理有其標準規範,並得以運用在任何規模之公私部門,使組織內之個人資料管理系統符合DPA之規範且具有一定程度之安全性,BSI試圖提出有關個人資料管理一致性之標準規範,以供組織在個人資料處理程序工作上之遵循。該標準規範如同BS EN ISO 9001:2000之品質管理系統(Quality Management System)及BS ISO/EC 27001:2005之資訊安全管理系統標準,以PDCA週期(Plan-Do-Check-Act)進行規劃,並透過執行所規範之流程落實個人資料之保護。 目前該草案已經公布,BSI於2009年3月31日前將接受各界對於該草案之諮詢及舉辦公聽會,以求標準規範之完善。
我國去識別化實務發展-「個人資料去識別化過程驗證要求及控制措施」我國關於個人資料去識別化實務發展 財團法人資訊工業策進會科技法律研究所 2019年6月4日 壹、我國關於個人資料去識別化實務發展歷程 我國關於個資去識別化實務發展,依據我國個資法第1條立法目的在個資之隱私保護與加值利用之間尋求平衡,實務上爭議在於達到合理利用目的之個資處理,參酌法務部103年11月17日法律字第10303513040號函說明「個人資料,運用各種技術予以去識別化,而依其呈現方式已無從直接或間接識別該特定個人者,即非屬個人資料,自非個資法之適用範圍」,在保護個人隱私之前提下,資料於必要時應進行去識別化操作,確保特定個人無論直接或間接皆無從被識別;還得參酌關於衛生福利部健保署資料庫案,健保署將其所保有之個人就醫健保資料,加密後提供予國衛院建立健保研究資料庫,引發當事人重大利益爭議,終審判決(最高行政法院106年判字第54號判決)被告(即今衛福部)勝訴,法院認為去識別化係以「完全切斷資料內容與特定主體間之連結線索」程度為判準,該案之資料收受者(本案中即為衛福部)掌握還原資料與主體間連結之能力,與健保署去識別化標準不符。但法院同時強調去識別化之功能與作用,在於確保社會大眾無法從資料內容輕易推知該資料所屬主體,並有提到關於再識別之風險評估,然而應採行何種標準,並未於法院判決明確說明。 我國政府為因應巨量資料應用潮流,推動個資合理利用,行政院以推動開放資料為目標,104年7月重大政策推動會議決議,請經濟部標檢局研析相關規範(如CNS 29191),邀請相關政府機關及驗證機構開會討論,確定「個人資料去識別化」驗證標準規範,並由財政部財政資訊中心率先進行去識別化驗證;並以我國與國際標準(ISO)調和之國家標準CNS 29100及CNS 29191,同時採用作為個資去識別化驗證標準。財政部財政資訊中心於104年11月完成導航案例,第二波示範案例則由內政部及衛生福利部(105年12月通過)接續辦理。 經濟部標準檢驗局目前不僅將ISO/IEC 29100:2011「資訊技術-安全技術-隱私權框架」(Information technology – Security techniques – Privacy framework)、ISO/IEC 29191:2012「資訊技術-安全技術-部分匿名及部分去連結鑑別之要求事項」(Information technology – Security techniques – Requirements for partially anonymous, partially unlinkable authentication),轉換為國家標準CNS 29100及CNS 29191,並據此制訂「個人資料去識別化過程驗證要求及控制措施」,提供個資去識別化之隱私框架,使組織、技術及程序等各層面得整體應用隱私權保護,並於標準公報(107年第24期)徵求新標準之意見至今年2月,草案編號為1071013「資訊技術-安全技術-個人可識別資訊去識別化過程管理系統-要求事項」(Management systems of personal identifiable information deidentification processes – Requirements),主要規定個資去識別化過程管理系統(personal information deidentification process management system, PIDIPMS)之要求事項,提供維護並改進個人資訊去識別化過程及良好實務作法之框架,並適用於所有擬管理其所建立之個資去識別化過程的組織。 貳、個人資料去識別化過程驗證要求及控制措施重點說明 由於前述說明之草案編號1071013去識別化國家標準仍在審議階段,因此以下以現行「個人資料去識別化過程驗證要求及控制措施」(以下簡稱控制措施)[1]說明。 去識別化係以個資整體生命週期為保護基礎,評估資料利用之風險,包括隱私權政策、隱私風險管理、隱私保護原則、去識別化過程、重新識別評鑑等程序,分別對應控制措施之五個章節[2]。控制措施旨在使組織能建立個資去識別化過程管理系統,以管理對其所控制之個人可識別資訊(personal identifiable information, PII)進行去識別化之過程。再就控制措施對應個人資料保護法(下稱個資法)說明如下:首先,組織應先確定去識別化需求為何,究係對「個資之蒐集或處理」或「為特定目的外之利用」(對應個資法第19條第1項第4、5款)接著,對應重點在於「適當安全維護措施」,依據個資法施行細則第12條第1項規定,公務機關或非公務機關為防止個資被竊取、竄改、毀損、滅失或洩漏,採取技術上及組織上之措施;而依據個資法施行細則第12條第2項規定,適當安全維護措施得包括11款事項,並以與所欲達成之個資保護目的間,具有適當比例為原則。以下簡要說明控制措施五大章節對應個資法: 一、隱私權政策 涉及PII處理之組織的高階管理階層,應依營運要求及相關法律與法規,建立隱私權政策,提供隱私權保護之管理指導方針及支持。對應個資法施行細則第12條第2項第5款適當安全維護措施事項「個人資料蒐集、處理及利用之內部管理程序」,即為涉及個資生命週期為保護基礎之管理程序,從蒐集、處理到利用為原則性規範,以建構個資去識別化過程管理系統。 二、PII隱私風險管理過程 組織應定期執行廣泛之PII風險管理活動並發展與其隱私保護有關的風險剖繪。直接對應規範即為個資法施行細則第12條第2項第3款「個人資料之風險評估及管理機制」。 三、PII之隱私權原則 組織蒐集、處理、利用PII應符合之11項原則,包含「同意及選擇原則」、「目的適法性及規定原則」、「蒐集限制原則」、「資料極小化原則」、「利用、保留及揭露限制」、「準確性及品質原則」、「公開、透通性及告知原則」、「個人參與及存取原則」、「可歸責性原則」、「資訊安全原則」,以及「隱私遵循原則」。以上原則涵蓋個資法施行細則第12條第2項之11款事項。 四、PII去識別化過程 組織應建立有效且周延之PII去識別化過程的治理結構、標準作業程序、非預期揭露備妥災難復原計畫,且組織之高階管理階層應監督及審查PII去識別化過程之治理的安排。個資法施行細則第17條所謂「無從識別特定當事人」定義,係指個資以代碼、匿名、隱藏部分資料或其他方式,無從辨識該特定個人者,組織於進行去識別化處理時,應依需求、風險評估等確認注意去識別化程度。 五、重新識別PII之要求 此章節為選驗項目,需具體依據組織去識別化需求,是否需要重新識別而決定是否適用;若選擇適用,則保留重新識別可能性,應回歸個資法規定保護個資。 參、小結 國際上目前無個資去識別化驗證標準及驗證作法可資遵循,因此現階段控制措施,係以個資整體生命週期為保護基礎,評估資料利用之風險,使組織能建立個資去識別化過程管理系統,以管理對其所控制之個人可識別資訊進行去識別化之過程,透過與個資法對照個資法施行細則第12條規定之安全維護措施之11款事項,內化為我國業者因應資料保護與資料去識別化管理制度。 控制措施預計於今年下半年發展為國家標準,遵循個資法與施行細則,以及CNS 29100、CNS 29191之國家標準,參照國際上相關指引與實務作法,於技術上建立驗證標準規範供產業遵循。由於國家標準無強制性,業者視需要評估導入,仍建議進行巨量資料應用等資料經濟創新業務,應重視處理個資之適法性,建立當事人得以信賴機制,將有助於產業資料應用之創新,並透過檢視資料利用目的之合理性與必要性,作為資料合理利用之判斷,是為去識別化治理之關鍵環節。 [1] 參酌財團法人電子檢驗中心,個人資料去識別化過程驗證,https://www.etc.org.tw/%E9%A9%97%E8%AD%89%E6%9C%8D%E5%8B%99/%E5%80%8B%E4%BA%BA%E8%B3%87%E6%96%99%E5%8E%BB%E8%AD%98%E5%88%A5%E5%8C%96%E9%81%8E%E7%A8%8B%E9%A9%97%E8%AD%89.aspx(最後瀏覽日:2019/6/4) 財團法人電子檢驗中心網站所公告之「個人資料去識別化過程自評表_v1」包含控制措施原則、要求事項與控制措施具體內容,該網站並未公告「個人資料去識別化過程驗證要求及控制措施」,故以下整理係以自評表為準。 [2] 分別為「隱私權政策」、「PII隱私風險管理過程」、「PII之隱私權原則」、「PII去識別化過程」、「重新識別PII之要求」。