合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=65&tp=1 (最後瀏覽日:2024/11/23)
引註此篇文章
你可能還會想看
德國資料保護會議通過「哈姆巴爾宣言」,針對人工智慧之運用提出七大個資保護要求

  德國聯邦及各邦獨立資料保護監督機關(unabhängige Datenschutzaufsichtsbehörden)共同於2019年4月3日,召開第97屆資料保護會議通過哈姆巴爾宣言(Hambacher Erklärung,以下簡稱「Hambacher宣言」)。該宣言指出人工智慧雖然為人類帶來福祉,但同時對法律秩序內自由及民主體制造成巨大的威脅,特別是人工智慧系統可以透過自主學習不斷蒐集、處理與利用大量個人資料,並且透過自動化的演算系統,干預個人的權利與自由。   諸如人工智慧系統被運用於判讀應徵者履歷,其篩選結果給予女性較不利的評價時,則暴露出人工智慧處理大量資料時所產生的性別歧視,且該歧視結果無法藉由修正資料予以去除,否則將無法呈現原始資料之真實性。由於保護人民基本權利屬於國家之重要任務,國家有義務使人工智慧的發展與應用,符合民主法治國之制度框架。Hambacher宣言認為透過人工智慧系統運用個人資料時,應符合歐盟一般資料保護規則(The General Data Protection Regulation,以下簡稱GDPR)第5條個人資料蒐集、處理與利用之原則,並基於該原則針對人工智慧提出以下七點個資保護之要求: (1)人工智慧不應使個人成為客體:依據德國基本法第1條第1項人性尊嚴之保障,資料主體得不受自動化利用後所做成,具有法律效果或類似重大不利影響之決策拘束。 (2)人工智慧應符合目的限制原則:透過人工智慧系統蒐集、處理與利用個人資料時,即使後續擴張利用亦應與原始目的具有一致性。 (3)人工智慧運用處理須透明、易於理解及具有可解釋性:人工智慧在蒐集、處理與利用個人資料時,其過程應保持透明且決策結果易於理解及可解釋,以利於追溯及識別決策流程與結果。 (4)人工智慧應避免產生歧視結果:人工智慧應避免蒐集資料不足或錯誤資料等原因,而產生具有歧視性之決策結果,控管者或處理者使用人工智慧前,應評估對人的權利或自由之風險並控管之。 (5)應遵循資料最少蒐集原則:人工智慧系統通常會蒐集大量資料,蒐集或處理個人資料應於必要範圍內為之,且不得逾越特定目的之必要範圍,並應檢查個人資料是否完全匿名化。 (6)人工智慧須設置問責機關進行監督:依據GDPR第12條、第32條及第35條規定,人工智慧系統內的控管者或處理者應識別風險、溝通責任及採取必要防範措施,以確保蒐集、處理與利用個人資料之安全性。 (7)人工智慧應採取適當技術與組織上的措施管理之:為了符合GDPR第24條及第25條規定,聯邦資料保護監督機關應確認,控管者或處理者採用適當的現有技術及組織措施予以保障個人資料。   綜上所述,Hambacher宣言內容旨在要求,人工智慧在蒐集、處理及利用個人資料時,除遵守歐盟一般資料保護規則之規範外,亦應遵守上述提出之七點原則,以避免其運用結果干預資料主體之基本權利。

英國衛生部將建立之病歷資料庫挑動隱私保護議題之神經

  英國衛生部(Department of Health)於5月21日公布新的國家衛生政策,政策中指出,未來將建立資料庫,透過建設完善醫藥資訊之流通分享機制可改善對於病患之醫療服務以及促進學術研究之發展,當局承諾將採取適當之保護措施以妥善保護當事人之個人資料。然而,該政策同時亦承認對於病患資料匿名化之措施仍可能侵害當事人之隱私權。   當局指出,為了保護當事人之權益,將個人資料匿名化實屬必要,然而,對於醫療院所而言,縱使已經將個人資料匿名化,但透過其他相關資訊包含年齡、性別、血型、身高或者體重等,仍可能間接識別出當事人之個人資料。   衛生部重申建立資料庫分享當事人之個人醫療資料將可有效促進學術研究之發展,但將會透過當事人同意以及確實匿名化之機制保護當事人之個人資料。另外,衛生部於該政策中指出未來將要求英國之醫療機構必須於內部建立系統,使患者、當事人可有管道查詢其留存於資料庫之資料。   英國之隱私保護專員指出,由於此政策涉及敏感性個人資料之蒐集,所以其針對衛生部之政策規畫將持續關注,以確保當事人之隱私權。

美國OMB發布人工智慧應用監管指南備忘錄草案

  美國行政管理預算局(United States Office of Management and Budget, OMB)於2020年1月發布「人工智慧應用監管指南(Guidance for Regulation of Artificial Intelligence Applications)」備忘錄草案。該備忘錄草案係基於維護美國人工智慧(AI)領導地位之目的,而依據美國總統川普(Donald John Trump)於2019年2月簽署之「維持美國人工智慧領導地位(Maintaining American Leadership in Artificial Intelligence)─行政命令13859號」,並在啟動美國人工智慧計畫後180天內,經OMB偕同科技政策辦公室(Office of Science and Technology Policy, OSTP)、美國國內政策委員會(United States Domestic Policy Council)與美國國家經濟委員會(National Economic Council)與其他相關機構進行協商,最後再由OMB發布人工智慧應用監管指南備忘錄草案,以徵詢公眾意見。   該備忘錄草案不僅是為了規範新型態AI應用技術,更希望相關的聯邦機構,在制定AI應用產業授權技術、監管與非監管方法上,能採取彈性的制定方向,以避免過度嚴苛的規定,反而阻礙AI應用的創新與科技發展,繼而保護公民自由、隱私權、基本權與自治權等價值。同時,為兼顧AI創新與政策之平衡,應以十大管理原則為規範制定之依據,十大管理原則分別為: 培養AI公眾信任(Public Trust in AI); 公眾參與(Public Participation); 科學研究倫理與資訊品質(Scientific Integrity and Information Quality); AI風險評估與管理(Risk Assessment and Management); 獲益與成本原則(Benefits and Costs); 彈性原則(Flexibility); 公平與反歧視(Fairness and Non-Discrimination); AI應用之揭露與透明化(Disclosure and Transparency); AI系統防護與措施安全性(Safety and Security); 機構間之相互協調(Interagency Coordination)。   此外,為減少AI應用之阻礙,機構制定AI規則時,應採取降低AI技術障礙的方法,例如透過聯邦資料與模型方法來發展AI研發(Federal Data and Models for AI R&D)、公眾溝通(Communication to the Public)、自發性共識標準(Voluntary Consensus Standards)之制定及符合性評鑑(Conformity Assessment)活動,或國際監管合作(International Regulatory Cooperation)等,以創造一個接納並利於AI運作的環境。

韓國通過最新個人資料保護法修正案

  近年韓國國內發生多起重大資訊安全疏失,例如:2014年韓國三大信用卡公司客戶資料外洩,成為韓國史上最嚴重的個人資料洩漏事件。為加強控管,韓國政府於2015年7月通過最新個人資料保護法修正案(Personal Information Protection Act, PIPA)。修正案新增懲罰性損害賠償及法定損害賠償規定。未來該國違反個人資料保護法的機關,將會面臨鉅額罰金及損害賠償。韓國政府期望藉此來促使企業加強資料安全管理。   根據最新修正案條文,若某機關因故意或重大過失,造成個人資料被遺失、竊取、洩漏、偽造、竄改或損毀,經法院判決後,最高將會被處以實質損害金額三倍的懲罰性損害賠償。此外,除非該機關能舉證當事人的損害與機關之行為沒有因果關係,否則當事人可請求最高3百萬韓元(約台幣8萬元)的法定損害賠償。   此次,韓國個人資料保護法修正案另一個重點在擴大韓國個人資料保護委員會(The Personal Information Protection Committee)的職權。該委員會將成為資訊安全爭議的最終裁決機關,且擁有相關資訊安全管理相關政策制定及修正的提議權。   由於此修正案將於2016年7月正式實行。韓國政府建議各大機關應儘快依照新修正案內容檢討並更新其隱私權政策及資料安全防護機制,避免在新法上路後遭罰。

TOP