合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/22)
引註此篇文章
你可能還會想看
歐盟執委會提出《用電資料相互操作性要求及程序實施規則草案》促進電力服務相互操作性

  歐盟執委會(European Commission)於2022年7月29日提出《近用電錶及用電資料之相互操作性要求及非歧視性與透明性程序實施規則草案》(Commission Implementing Regulation (EU) on interoperability requirements and non-discriminatory and transparent procedures for access to metering and consumption data),於2022年9月5日草案第二階段之公眾意見徵集結束。本草案以進一步落實《內部電力市場指令》(Directive (EU) 2019/944)中賦予用戶近用有關用電及包括行政手續費用、使用輸配電過路費等資料,促進智慧電錶系統(smart metering system)於資料模型階段及應用層面之相互操作性(interoperability),提高市場參與者資料近用與交換之標準,以及未來創新能源服務標準等目標。 為落實上述指令之要求,本草案旨在規定系統相互操作性以及資料近用的非歧視性與透明性要求,其重點如下: (1)本草案適用對象為經認證之歷史計量及用電資料、未經認證的近即時計量(non-validated near-real time metering)、用電資料形式的計量以及用電資料。 (2)確保供應商於用戶同意下能夠以透明且連續性的方式近用用戶資料(包括判讀及使用)。用戶亦得近用其於智慧電錶系統的資料。 (3)根據會員國的實踐,定義歐盟層級在商業模式層面、功能層面及資訊層面等一般性規則與程序規定的「參考模型」(reference model)。參考模型為特定服務及程序所需的基本工作程序,包括: A. 由各種角色、職責及其相互作用組成的「角色模型」,包括計量資料管理員(metered data administrator)、計量站管理員(metering point administrator)、資料近用提供者及權限管理員的角色和職責; B. 由資訊對象、屬性以及該對象間關係組成的「資訊模型」; C. 詳細說明程序步驟的「程序模型」。 (4)為有效確保資料近用程序的透明度,有必要收集會員國提供的國家實踐報告,並報告至歐盟層級,同時協助會員國報告其國家實踐。 (5)適用本草案之個人資料需遵守《歐盟一般資料保護規則》(GDPR);由於智慧電錶符合終端設備的要求,也適用《電子通訊個人資料處理暨隱私權保護指令》(Directive 2002/58/EC)。

德國2015年6月5日通過電動車法(EmoG)

  德國聯邦議會通過電力驅動車輛優惠法(下稱電動車法(Gesetz zur Bevorrechtigung der Verwendung elektrisch betriebener Fahrzeuge ,Elektromobilitätsgesetz-EmoG),該法遂於於2015年6月5日生效。   德國為了達到減碳目標,不但大力推動再生能源,且亦於五年前成立國家電動車平台,希望於2020年達到全國有100萬輛電動車在街道上行駛之目標,德國政府為達此一目標,修法讓電動車可享地方政府提供的停車位以及可使用巴士車道兩項優惠。   該法對電動車之定義為(1)電池驅動車輛(2)可充式之油電混合車輛及(3)燃料電池車輛(電動車法第2條),並提供優惠予(1)公用道路巷道之停放(2)全部或一部特定公用道路巷道之特別使用(3)進入或通過禁行區域,例外地許可之(4)公用道路巷道停放時之規費,免除之(電動車法第3條第4項)。   另外,為推廣使用,依道路交通秩序法第46條第1a項,電動車輛亦得黏貼特殊標識行駛於交通管制區、禁行區域及需繞道之路段。供巴士行駛道路亦同。而為了電動車之辨識,本法第4條亦規定電動車標識應具備之內容,並於2015年9月26日發相關之電動車標示規則。

馬來西亞個人資料保護法之發展仍有諸多不確定因素

  馬來西亞於2010年6月即通過個人資料保護法,延宕經年,該法終於自2013年底開始正式施行,而數項配套規範亦同步施行。前個資保護部門首長Abu Hassan Ismail則被任命為新設之個資保護專員,受通訊及多媒體部部長之指揮監督。   從規範內容架構觀察,馬國此部個資法之範疇堪稱恢弘,不但包括了諸多的實質行為規定,例如,在行為規範的面向上,馬國個資法要求其所謂的資料使用者(data user) 必須遵守多項個資保護原則並尊重當事人權利;此外,該法亦有不少與個資保護相關之組織及程序規則,例如,該法設有行政救濟法庭,如對個資保護專員之決定有所不服者,即可在此提出救濟。惜該法之適用對象不包括公部門,且在適用情形方面,除排除了純粹因個人或家庭目的而蒐集、處理、利用個人資料外,亦針對諸多情形分別排除該法所設之不同個資保護原則之適用,且更賦予個資保護專員另行指定排除適用情形之權限,因而除將相當程度限制該法影響範圍外,並使該法之適用與發展增加許多不確定之因素。

英國將以NHS基因體醫學服務續行十萬基因體計畫

  英國政府所提出的「10萬基因體計畫(100,000 Genomes Project)」將於2018年底達成目標,而將以NHS基因體醫學服務(NHS Genomic Medicine Service)作為續行計畫,以促進個人化醫療的發展。   NHS基因體醫療服務的目的在於促進罕見疾病與癌症的診斷以及患者治療的效率,並預期在未來5年達到五百萬組基因定序,以提供具備全面性(comprehensive)以及公正性(equitable)的基因檢測。為達此目的,NHS基因體醫療服務包含5個主要內涵:連結基因體研究中心以成立國家基因體實驗室服務(national genomic laboratory service)、新的國家基因體實驗室檢測文庫(new National Genomic Test Directory)、全基因體定序的相關規範,並與英國基因體公司(Genomic England)合作開發資訊基礎設施(informatics infrastructure)、臨床基因體醫學服務(clinical genomics medicine services)以及發展基因體醫學中心服務(Genomic Medicine Centre service)、NHS負擔統合性的監管職責。   在以NHS基因體醫療服務作為續行計畫的狀況下,若合格的研發人員欲以患者的基因資料進行新藥或是新治療方式的開發需事先取得患者的同意。另外,從2019年開始,全基因定序將被納入特定患者的治療過程中,如罹患特定罕見疾病或具有治癒困難性的成年患者以及所有患有嚴重疾病的孩童患者,以加速疾病的診斷以及減少侵入性治療的次數。

TOP