合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/09)
引註此篇文章
你可能還會想看
美國華府行政管理與預算辦公室頒布Open Data政策備忘錄之執行指導綱要

  美國華府行政管理與預算辦公室(Office of Management and Budget)頒布執行M-13-13 Open Data政策備忘錄之指導綱要(Supplemental Guidance on the Implementation of M-13-13 “Open Data Policy-Managing Information as an Asset”),目的在於澄清問題及提供執行細節以協助政府部門實施執行命令第13642號及M-13-13 Open Data政策備忘錄。透過實踐本指導綱要,各政府部門將能確保用以盤點、管理及開放資料的基礎設施之完備,進而開創因開放資料所產生之價值。   資料在依據本綱要進行盤點時,主管機關必須一併予以分級,其近用層級(Access Levels),區分為公開(Public)、限閱(Restricted Public)、非公開資料(Non-public)。資料公開前會經過完整之隱私權保護及資訊安全事項檢視,無違反相關法律和政策規範者,始釋出予大眾。   針對備忘錄之五項執行要求,本指導綱要即分為五項對應指導,介紹如下: 1.建立及維運大型資料盤點目錄:目的在使聯邦政府部門建立清楚且完整之資料資產目錄,而在製作盤點目錄後,必須持續改進、維護資料,並以擴展、豐富、開放三種面向來評估檢視盤點目錄之成熟度。 2.建立及維運公開資料清單:為增進資料查詢之容易度及可用性,各部門須篩選上述資料盤點目錄中屬於公開層級或可以被公開之資料,並建立及發布公開資料清單,作為盤點目錄之子目錄,使民眾得以知悉現有公開資料,及接續地將被公開之資料。各部門基於裁量權,亦可決定是否列入限閱或非公開資料資產,使民眾能知悉該筆資料之存在以及近用該資料之程序。 3.建立用戶參與資料釋出程序:此程序將提供資料用戶參與促進資料釋出及認定釋出之優先順序。由關鍵的資料用戶來幫助聯邦政府認定資料資產價值,而被認定最高價值之資料將優先、快速釋出。 4.當資料無法釋出時,須以文件證明:政府部門必須確認資料經過完整之隱私權保護及資訊安全事項檢視,無違反相關法律和政策規範者,才能公開資料。當認定資料涉及違反上述規範時,則須以文件證明其諮詢該政府部門中所設之法律顧問單位(Office of General Counsel)或同類單位後之決定,再依據三種資料近用資層級予以分類。 5.指導綱要中要求列出各部門應該負責管理資訊之窗口。   原定11月1日為完備上述基礎設施建置之最後期限,然為因應美國自10月1日起聯邦政府關門,特寬限延期至11月30日;在11月30日後,各部門將於每季報告執行進展,而部門開放資料之績效將被列為跨部門優先追蹤對象。

美國聯邦地方法院撤銷農業部對基因改造甜菜根之同意案

  今(2010)年8月中,美國聯邦地方法院法官Jeffrey S. White撤銷了美國農業部(United States Department of Agriculture,簡稱USDA)對基因改造甜菜根(genetically modified sugar beets)之同意案,並發出非永久性之禁制令(non-permanent injunction),從2011年開始禁止商業種植基因改造甜菜根。   事實上,早在去(2009)年由多個環保與消費者團體所提起的訴訟中,White法官即已認定美國農業部並未適切地評估商業化種植基因改造甜菜根所可能帶來的生態影響,特別是遠血緣繁殖(out-crossing)的風險,因此,該同意案實已違反國家環境政策法(National Environmental Policy Act,簡稱 NEPA)之規定,但當時法院並未具體指明補救之辦法;在今年8月上旬的聽證會結束後,White法官認為原告已充分闡明基因改造甜菜根可能對環境造成「無可修補之傷害」,在考量到可能造成之經濟影響後,聯邦地方法院特意裁定允許農民仍可按期收穫尚在成長中之基因改造甜菜根,直至2011年春季始完全禁止。然而,美國農業部則是初步回應,他們打算在明年准許基因改造甜菜根在受到控制的情況下有限度地栽種,持續地努力讓傳統、有機與生物科技生產系統得以共存。   由甜菜根所製取的(食用)糖,大約供應了美國國內50%的需求;其中,從2007年開始種植的基因改造甜菜根,其耕地面積在2010年時已達470,000公頃,佔全美甜菜根收成總數的95%之譜!本案深刻地點出基因改造生物體(Genetically Modified Organism,簡稱GMO)所涉及之安全風險與經濟效益的衡平問題,後續所引發的討論值得我們追蹤下去。

從「數位休閒娛樂產業」之法制需求談我國娛樂業法制規範之可能性

美國加州通過藥價透明化法案

  美國在醫療費用的支出常常超乎預期,其中處方藥之花費就佔了相當大的比例。為了減少醫療費用支出,並讓藥物之價格更為透明,加州州長傑瑞布朗(Jerry Brown)在2017年10月9日簽署了第17號法案(藥價透明化法案),要求藥物製造商若要調高處方藥價格超過一定程度,則須事前通報給主管機關;該法預計於2018年10月1日生效。   藥價透明化法所稱之處方藥(prescription drugs),包含學名藥、原廠藥或特種藥品。本法之主管機關為「加州衛生計畫與發展辦公室」(Office of Statewide Health Planning and Development, OSHPD),掌管本法之執行並對違規製造商處罰民事罰款,本法案施行之相關細節亦由OSHPD訂定。OSHPD依據本法所得之罰款或收入,將全數交給「照護管理基金」(Managed Care Fund)做運用。   依據藥價透明化法規定,處方藥製造商對於其處方藥產品若欲調高產品公告目錄價(Wholesale Acquisition Cost, WAC)超過40美元/療程之漲幅者,須將處方藥漲幅、漲價原因、藥品使用情況或市場等資訊,以「季」為單位,至少於漲價生效60天前通報給加州衛生計畫與發展辦公室。若該藥品為新產品,其WAC超過「醫療保險處方藥物改良和更新法」(Medicare Prescription Drug, Improvement, and Modernization Act)所定之價格區間者,須於新產品上市後3天內通報給OSHPD。   OSHPD在收到處方藥製造商的通報資訊後,則須依法將資訊公開於其網站上。

TOP