合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw//article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/26)
引註此篇文章
你可能還會想看
簡介美國700MHz頻段之使用規劃

英國為救受Covid-19影響之小型企業成立簡易辦理之復興貸款計畫

  新冠病毒業務中斷貸款計畫(CORONAVIRUS BUSINESS INTERRUPTION LOAN SCHEME,CBILS)係因應疫情於3月23日由隸屬於英國政府之英國商業銀行(British Business Bank為推動中小型企業發展之政策性銀行)所提供八成信用擔保的中小型企業紓困貸款計畫,但承辦銀行授信緩慢或不願承貸,導致成效不彰飽受批評。   英國商業銀行正視小型企業具規模小、缺少抵押物、信用不足、營業資訊不透明及缺乏與銀行間的往來紀錄之特徵,易有不易通過授信徵審,難以獲得融資紓困之問題。業於5月4日另行啟動復興貸款計畫(BOUNCE BACK LOAN SCHEME,BBLS),小型企業只需於受理該計畫之承貸銀行網站填寫1份簡易申請表,輸入公司名稱、地址、公司註冊編號、2019年之預估年營業額與銀行代碼跟帳號,即可申請承貸金額為2,000英鎊以上,最高至企業營業額之25%(上限為50,000英鎊)之六年期之小規模貸款,該貸款提供十成擔保,銀行無需進行授信評估,亦不得要求小型企業進行任何其他形式之個人擔保,BBLS開放至今僅一週,申請件數已高於CBILS。   我國中央銀行之小規模營業人簡易申貸方案以十成信用提供小額貸款,與BBLS相似,惟我國小規模營業人簡易申貸方案採取簡易評分表進行審核,評分表內仍就負責人個人信用及不動產擔保設定進行分數評比,與英國無須進行授信評估頗有差異,雖我國受疫情影響程度未如英國嚴重,但小規模營業人仍受有衝擊,兩國之小額貸款同為十成擔保,我國或可參酌英國授信放寬之作業,提供小規模營業人更寬一點、快一點、方便一點的活水挹注,使小規模營業人度過疫情難關及加速復甦。

澳洲證券投資委員會與美國商品期貨交易委員會簽訂雙邊合作協議

  2018年10月4日,澳洲證券投資委員會(Australian Securities and Investments Commission,簡稱:ASIC)與美國商品期貨交易委員會(US Commodity Futures Trading Commission,簡稱:CFTC)簽訂「金融技術創新合作雙邊協議」(Cooperation Arrangement on Financial Technology Innovation’ bilateral agreement,簡稱:協議),該協議內容主要針對未來金融科技(fintech)以及監理科技(regtech)之合作以及相關資訊作交換。   協議內容主要為加強雙方瞭解、識別市場發展趨勢,進而促進金融科技創新,對於運用監理科技之金融產業採取鼓勵的態度。   具體協議內容及相關合作計畫為以下條款: 1. 建立正式合作途徑,其中包含資訊分享,ASIC創新中心與LabCFTC之間的溝通; 2. 協助轉介有興趣於另一管轄權,設立企業之金融科技公司; 3. 促進監管機構定期舉行相關監管會議,討論目前時下發展趨勢,藉以相互學習; 4. 針對非公開資訊及機密資訊,給予監管機構以共享方式流通資訊。   儘管,澳洲與美國已簽訂此協議,惟須注意的地方在於,此協議本質上不具備法律約束力,對監管機構也未加註責任,並強加特定義務,以及未取代任何國內法的法律義務。   雖然,此協議不具任何法律約束力,但美國以及澳洲之金融科技創新產業間已形成一定之默契,以及交叉合作。此種互利合作,使兩國金融創新企業在雙方管轄權下,並且降低跨境成本及加深跨境無障礙性,為兩國監管機構提供最佳執行方式,以及進一步資料之蒐集。

我國去識別化實務發展-「個人資料去識別化過程驗證要求及控制措施」

我國關於個人資料去識別化實務發展 財團法人資訊工業策進會科技法律研究所 2019年6月4日 壹、我國關於個人資料去識別化實務發展歷程   我國關於個資去識別化實務發展,依據我國個資法第1條立法目的在個資之隱私保護與加值利用之間尋求平衡,實務上爭議在於達到合理利用目的之個資處理,參酌法務部103年11月17日法律字第10303513040號函說明「個人資料,運用各種技術予以去識別化,而依其呈現方式已無從直接或間接識別該特定個人者,即非屬個人資料,自非個資法之適用範圍」,在保護個人隱私之前提下,資料於必要時應進行去識別化操作,確保特定個人無論直接或間接皆無從被識別;還得參酌關於衛生福利部健保署資料庫案,健保署將其所保有之個人就醫健保資料,加密後提供予國衛院建立健保研究資料庫,引發當事人重大利益爭議,終審判決(最高行政法院106年判字第54號判決)被告(即今衛福部)勝訴,法院認為去識別化係以「完全切斷資料內容與特定主體間之連結線索」程度為判準,該案之資料收受者(本案中即為衛福部)掌握還原資料與主體間連結之能力,與健保署去識別化標準不符。但法院同時強調去識別化之功能與作用,在於確保社會大眾無法從資料內容輕易推知該資料所屬主體,並有提到關於再識別之風險評估,然而應採行何種標準,並未於法院判決明確說明。   我國政府為因應巨量資料應用潮流,推動個資合理利用,行政院以推動開放資料為目標,104年7月重大政策推動會議決議,請經濟部標檢局研析相關規範(如CNS 29191),邀請相關政府機關及驗證機構開會討論,確定「個人資料去識別化」驗證標準規範,並由財政部財政資訊中心率先進行去識別化驗證;並以我國與國際標準(ISO)調和之國家標準CNS 29100及CNS 29191,同時採用作為個資去識別化驗證標準。財政部財政資訊中心於104年11月完成導航案例,第二波示範案例則由內政部及衛生福利部(105年12月通過)接續辦理。   經濟部標準檢驗局目前不僅將ISO/IEC 29100:2011「資訊技術-安全技術-隱私權框架」(Information technology – Security techniques – Privacy framework)、ISO/IEC 29191:2012「資訊技術-安全技術-部分匿名及部分去連結鑑別之要求事項」(Information technology – Security techniques – Requirements for partially anonymous, partially unlinkable authentication),轉換為國家標準CNS 29100及CNS 29191,並據此制訂「個人資料去識別化過程驗證要求及控制措施」,提供個資去識別化之隱私框架,使組織、技術及程序等各層面得整體應用隱私權保護,並於標準公報(107年第24期)徵求新標準之意見至今年2月,草案編號為1071013「資訊技術-安全技術-個人可識別資訊去識別化過程管理系統-要求事項」(Management systems of personal identifiable information deidentification processes – Requirements),主要規定個資去識別化過程管理系統(personal information deidentification process management system, PIDIPMS)之要求事項,提供維護並改進個人資訊去識別化過程及良好實務作法之框架,並適用於所有擬管理其所建立之個資去識別化過程的組織。 貳、個人資料去識別化過程驗證要求及控制措施重點說明   由於前述說明之草案編號1071013去識別化國家標準仍在審議階段,因此以下以現行「個人資料去識別化過程驗證要求及控制措施」(以下簡稱控制措施)[1]說明。   去識別化係以個資整體生命週期為保護基礎,評估資料利用之風險,包括隱私權政策、隱私風險管理、隱私保護原則、去識別化過程、重新識別評鑑等程序,分別對應控制措施之五個章節[2]。控制措施旨在使組織能建立個資去識別化過程管理系統,以管理對其所控制之個人可識別資訊(personal identifiable information, PII)進行去識別化之過程。再就控制措施對應個人資料保護法(下稱個資法)說明如下:首先,組織應先確定去識別化需求為何,究係對「個資之蒐集或處理」或「為特定目的外之利用」(對應個資法第19條第1項第4、5款)接著,對應重點在於「適當安全維護措施」,依據個資法施行細則第12條第1項規定,公務機關或非公務機關為防止個資被竊取、竄改、毀損、滅失或洩漏,採取技術上及組織上之措施;而依據個資法施行細則第12條第2項規定,適當安全維護措施得包括11款事項,並以與所欲達成之個資保護目的間,具有適當比例為原則。以下簡要說明控制措施五大章節對應個資法: 一、隱私權政策   涉及PII處理之組織的高階管理階層,應依營運要求及相關法律與法規,建立隱私權政策,提供隱私權保護之管理指導方針及支持。對應個資法施行細則第12條第2項第5款適當安全維護措施事項「個人資料蒐集、處理及利用之內部管理程序」,即為涉及個資生命週期為保護基礎之管理程序,從蒐集、處理到利用為原則性規範,以建構個資去識別化過程管理系統。 二、PII隱私風險管理過程   組織應定期執行廣泛之PII風險管理活動並發展與其隱私保護有關的風險剖繪。直接對應規範即為個資法施行細則第12條第2項第3款「個人資料之風險評估及管理機制」。 三、PII之隱私權原則   組織蒐集、處理、利用PII應符合之11項原則,包含「同意及選擇原則」、「目的適法性及規定原則」、「蒐集限制原則」、「資料極小化原則」、「利用、保留及揭露限制」、「準確性及品質原則」、「公開、透通性及告知原則」、「個人參與及存取原則」、「可歸責性原則」、「資訊安全原則」,以及「隱私遵循原則」。以上原則涵蓋個資法施行細則第12條第2項之11款事項。 四、PII去識別化過程   組織應建立有效且周延之PII去識別化過程的治理結構、標準作業程序、非預期揭露備妥災難復原計畫,且組織之高階管理階層應監督及審查PII去識別化過程之治理的安排。個資法施行細則第17條所謂「無從識別特定當事人」定義,係指個資以代碼、匿名、隱藏部分資料或其他方式,無從辨識該特定個人者,組織於進行去識別化處理時,應依需求、風險評估等確認注意去識別化程度。 五、重新識別PII之要求   此章節為選驗項目,需具體依據組織去識別化需求,是否需要重新識別而決定是否適用;若選擇適用,則保留重新識別可能性,應回歸個資法規定保護個資。 參、小結   國際上目前無個資去識別化驗證標準及驗證作法可資遵循,因此現階段控制措施,係以個資整體生命週期為保護基礎,評估資料利用之風險,使組織能建立個資去識別化過程管理系統,以管理對其所控制之個人可識別資訊進行去識別化之過程,透過與個資法對照個資法施行細則第12條規定之安全維護措施之11款事項,內化為我國業者因應資料保護與資料去識別化管理制度。   控制措施預計於今年下半年發展為國家標準,遵循個資法與施行細則,以及CNS 29100、CNS 29191之國家標準,參照國際上相關指引與實務作法,於技術上建立驗證標準規範供產業遵循。由於國家標準無強制性,業者視需要評估導入,仍建議進行巨量資料應用等資料經濟創新業務,應重視處理個資之適法性,建立當事人得以信賴機制,將有助於產業資料應用之創新,並透過檢視資料利用目的之合理性與必要性,作為資料合理利用之判斷,是為去識別化治理之關鍵環節。 [1] 參酌財團法人電子檢驗中心,個人資料去識別化過程驗證,https://www.etc.org.tw/%E9%A9%97%E8%AD%89%E6%9C%8D%E5%8B%99/%E5%80%8B%E4%BA%BA%E8%B3%87%E6%96%99%E5%8E%BB%E8%AD%98%E5%88%A5%E5%8C%96%E9%81%8E%E7%A8%8B%E9%A9%97%E8%AD%89.aspx(最後瀏覽日:2019/6/4) 財團法人電子檢驗中心網站所公告之「個人資料去識別化過程自評表_v1」包含控制措施原則、要求事項與控制措施具體內容,該網站並未公告「個人資料去識別化過程驗證要求及控制措施」,故以下整理係以自評表為準。 [2] 分別為「隱私權政策」、「PII隱私風險管理過程」、「PII之隱私權原則」、「PII去識別化過程」、「重新識別PII之要求」。

TOP