「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
十年前的 7 月 5 日 ,全世界第一隻複製的哺乳類動物桃莉羊在英國誕生。 複製羊成功的案例,吸引了如潮水般的錢潮,流入探索利用這項新技術的領域,諸如有關治療癌症、心臟病、阿茲海默症和其他嚴重疾病的研究。科學家應用在姚莉身上的技術是屬於「細胞核轉置技術」( SCNT ),簡言之,是把卵子的細胞核取出,然後把身體細胞的細胞核放入這個卵子中。在這個新建構的卵子中,只有來自身體細胞的染色體,而沒有原卵子的染色體,新卵子中僅含有提供身體細胞者的基因組,所以稱之為「複製」。科學複製有很大的潛在風險,代價又高,但它對醫學研究仍有很大的貢獻,其中最引人注意的,就是可取得胚胎幹細胞。 幹細胞是一群尚未完全分化的細胞,同時具有分裂增殖成另一個與本身完全相同的細胞,以及分化成為多種特定功能的體細胞兩種特性,在生命體由胚胎發育到成熟個體的過程中,扮演最關鍵性的角色。研究人員相信未來可以利用幹細胞,修復或是更換受傷或是病變的器官中的細胞或組織,特別是利用有患者自己基因的幹細胞組織移植,可以避免免疫系統的排斥現象。 當年科學家複製桃莉羊時所抱持之野心不小,然而這十年來,科學家們並沒有能夠達成以幹細胞治療人類疾病的目標,雖然因複製 技術本身具有高度爭議性,許多國家已立法予以規制,然卻依舊無法避免如 前首爾大學教授黃禹錫偽造幹細胞研究成果的醜聞發生,這項醜聞使原本即因幹細胞研究和倫理會產生衝突而不易獲得公私部門經費支持的研究工作,更為雪上加霜。 英國胚胎學者指出,回顧過去醫學研究史上的新發現,不論是試管嬰兒或是其他的技術,從第一次到最後技術完全成熟階段,都需要花很長的時間一步步完成,未來可能還需要五十年的時間,複製技術對醫學的貢獻才可能到達豐收階段。
日本產業競爭力強化法簡介—以新事業活動特例制度為中心 美國通過最新的電子醫療紀錄之隱私與安全標準美國衛生部隸屬之醫療資訊科技標準委員會(Health IT Standards Committee)為了因應「2009年經濟復甦暨再投資法」(America Recovery and Reinvestment Act, “ARRA”)的通過,制定了新的電子醫療紀錄的隱私、安全標準,以擴大保護電子醫療紀錄的使用安全。 這次制定的電子醫療紀錄的隱私、安全標準,將透過具有足夠防護能力的醫療資訊科技系統標準,來保護電子醫療紀錄的交換,並且擴大適用範圍到醫療照護廠商與提供者,要求其必須在2011年前達到幾項資訊的使用控制標準,包括「醫療保險可攜與責任法」(Health Insurance Portability and Accountability Act, “HIPAA”)與「加密促進標準」(Advanced Encryption Standard)之相關規定,以完備個人電子醫療資訊的保護網。 在此次訂立的標準之下,任何人員或是應用程式欲使用與接近電子醫療紀錄,應符合法律所授予的接近與使用之要件。同時,處理個人醫療資訊的系統,也必須具備對個人醫療資訊加密與解密的能力,以保障個人醫療資訊的安全與完整。除了以上的要求,這些標準也要求相關的適用機構,必須在2013年以前完成符合病歷交換格式(HL7)的使用接近控制、安全宣示標記語言(Security Assertion Mark-up Language, “SAML”)、網路服務認證(Web Service Trust, “WS-Trust”)以及促進資訊標準建置組織(Organization for the Advancement of Structured Information Standards, “OASIS”)的機制,以保障醫療資訊的安全。
英國DECC發佈實施智慧電表對隱私影響評估報告英國能源與氣候變遷部 (Department of Energy & Climate Change, DECC) 於2012年十二月十二日,依據歐洲執委會於同年三月針對智慧電表系統推展準備所發表的建議 (2012/148/EU: Commission Recommendation of the 9th March 2012 on preparation for the roll-out of SM systems, Section 1.4),公佈其就智慧電表實施計畫對隱私影響的評估 (Privacy Impact Assessment)。 該項評估羅列了十一項面向,分別探討其可能因智慧電表實施對隱私帶的衝擊。這些面向包括有智慧電表為防範非法、未經授權資料近取的安全性管理,中央、地方政府機關及執法單位為他途而對資料的使用,第三人對細部能源消費資料的取得,對電表資料過長時間的保留,及非帳戶持有人對能源消費資料之取得等。 該部部長巴洛妮絲‧菲瑪 (Baroness Verma) 表示: 消費者是最重要的,因此能源與氣候變遷部在推動智慧電表實施的同時,亦致力於隱私、安全、消費者保護及通信等議題的處理。 除此之外,DECC並針對應如何]執行歐盟於同年十月二十五日通過的能源效率指令(Energy Efficient Directive 2012/27/EC) 中,第十條第二項B款所定關於消費者對去過去至少二十四個月能源消費資料應有簡易取得方式之要求,展開公開諮詢的程序。 英國智慧電表的全面推行預計從2014年展開至2019年結束前完成。其是否能在確保公眾能源消費資料不受非侵害或不當利用的前提下,發展各項配套措施以完成這項各國皆欲達成浩大工程,令人期待。