合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/12)
引註此篇文章
你可能還會想看
揭露產品溯源資訊,兼顧防偽、永續!歐盟區塊鏈物流認證計畫進行試點,將於11月發布報告

為確認產品供應鏈與物流鏈的真實來源、打擊仿冒品、提升永續資訊透明度以接軌歐盟政策,歐盟智慧財產局(下稱EUIPO)自2023年5月啟動區塊鏈物流認證計畫(下稱EBSI-ELSA),採難以竄改、公開透明的區塊鏈服務基礎設施(European Blockchain Services Infrastructure,下稱EBSI),透過數位簽章(digital signature)、時戳追溯與驗證歐盟進口產品的來源是否為智慧財產權利人。EUIPO 於2024年6月24日宣布EBSI-ELSA已上線8成基礎設施。為加速推動計畫,於2024年9月至11月間,EUIPO以產品鏈的智財權利人(例如鞋類與/或服裝、電氣設備、手錶、醫療設備與/或藥品、香水與/或化妝品、汽車零件與玩具產業別之產品智財權利人)為試點,並將於2024年11月前發布試點最終報告。 透過試點,EUIPO致力於: (1)測試、評估於真實世界之製造與分銷系統中應用數位簽章及物流模組的情況,以作為智財權利人之企業資源規劃(ERP)的一部分。 (2)於產品歷程,測試、評估數位裝運契約(digital shipment contract)及產品數位孿生(Digital Twin)之資訊的接觸權限與品質(access to and quality of information)。如海關人員預計於產品抵運前(pre-arrival)、通關階段(inspection phases)確認產品之真實性。 (3)提供產品生命週期應用EBSI-ELSA之試點最終報告,包含實施過程、結果等相關資料。 EBSI-ELSA計畫認為其符合歐盟之數位政策與循環經濟目標,旨於採取區塊鏈技術向供應商、消費者、海關、市場監管機構等多方揭露更多的產品溯源資料,提升產品透明度,銜接歐盟之數位產品護照(Digital Product Passport, DPP)政策,該政策目的係以數位互通方式揭露歐洲市場之產品生命週期的資訊,如產品材料來源、製程、物流、碳足跡等永續資訊,強化產業的可追溯性、循環性(circularity)及透明度,以協助供應鏈利害關係人、消費者、投資者做出可持續的選擇。而負責執行歐盟資料經濟與網路安全相關政策之歐盟執委會資通訊網絡暨科技總署(DG Connect)於2024年5月所發布之「數位產品護照:基於區塊鏈的看法」報告,亦指出「為確保區塊鏈系統互通性,其IOTA區塊鏈技術框架應能與歐盟內部市場電子交易之電子身分認證及信賴服務規章(EIDAS)及EBSI標準完全接軌(fully align)」。 如我國企業欲強化既有的產品生命週期資料管理機制,可參考資策會科法所創智中心發布之《重要數位資料治理暨管理制度規範(EDGS)》,從數位資料的生成、保護與維護出發,再延伸至存證資訊之取得、維護與驗證之流程化管理機制,協助產業循序增進資料的可追溯性。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

美國專利商標局月底啓動「三路」試行計畫(“Triway”Pilot Program)

  美國專利商標局(USPTO)在2005年11月,與歐洲專利局(EPO)及日本專利局(JPO)之三邊會前會上,提出了一個簡稱為「三路」(Triway)的檢索共享計畫,該計畫希望能使三局的檢索技術發揮槓桿效果,進而能使專利申請者及各該專利管理當局受惠。   三局其後在2007年11月的三邊會前會上同意先期進行有限的試驗計畫。   「三路」的基本構想乃希望透過縮短時效來推廣資源分享,同時能使申請者及各該管理當局在很短的一定時間內取得三局的檢索結果,進而使申請者及各該局有機會能分享及考量所有的檢索結果,同一協助改善各該局對同一專利申請者專利審定之品質。   在「三路」試行計畫下,各該局對於在巴黎公約下之同一專利申請將適時提早進行檢索,且各該局的檢索結果將由三局共同分享以減少各該局的檢索及審查工作量。   三局同意「三路」試行計畫之試行對象限於在美國專利商標局首次提出申請者,並限於一百個試行專利申請案,試行計畫將在明年的同一時間結束,或在接受一百個試行專利申請案後提前結束。

中國對抗殭屍網路與木馬法制策略研析

澳洲通過新修正之隱私法,大幅提高罰責以期遏止個資事故

  澳洲司法部長Mark Dreyfus於2022年10月26日提出聯邦《2022年隱私法修正案(執法及其他措施)》(Privacy Legislation Amendment (Enforcement and Other Measures) Bill 2022 (Cth) ),並於11月28日正式通過,顯示澳洲政府對於近期多起大型個資事故的重視,以及民眾對於個資保護之公民意識逐漸成熟。   近期澳洲發生之兩起大規模個資事故,其一為9月底澳洲第二大電信業者Optus表示受到網路攻擊,約有1,000萬人(約占澳洲人口40%)的個資遭到外洩,除了姓名、性別、生日等資料之外也包括用戶的住址、駕照和護照號碼等;無獨有偶,於十月底澳洲最大的私人健康保險公司Medibank亦公開聲明發生200GB的資料遭到竊取的個資事故,被竊資料中有大約970萬名現在或過去客戶的姓名、出生日期、地址、電話號碼和電子郵件地址等資料,因為此兩起大型個資事故的發生,促使澳洲政府不得不予以重視,在極短時間內通過新法修正。   此次修正案修改1988年《隱私法》(Privacy Act)、2010年《澳洲資訊委員法》(Australian Information Commissioner Act)和2005年《澳洲通訊及媒體管理局法》(Australian Communications and Media Authority Act 2005),修正重點包含加重裁罰、加強資訊委員執法權限及域外管轄權。   一、加重裁罰之部分,依修正《隱私法》第13G條,當嚴重或反覆侵犯他人隱私事件發生時,若行為人為「非法人」(a person other than a body corporate,即我國法之自然人)時,其由行政機關課予當事人之罰金(civil penalty)上限提高到250萬澳幣(約新台幣5,200萬);若行為人為「法人」(body corporate)時,罰金上限增加到5,000萬澳幣(約新台幣10億)或其所得利益價值的三倍(兩者取其高)。如果法院無法確定利益的數額,則取法人違規期間或事故發生後12個月內(擇其時間較長者)調整型營收(adjusted turnover*)的30%。   二、關於資訊委員執法權限強化部分,其擴大資訊委員與他公私部門間交換及查閱資訊之權限,資訊委員得向嫌疑人進行調查或要求交付相關證據,且賦予資訊委員得不待法院裁判,逕對妨害查辦者課以民事制裁,甚至得將屢次妨害查辦之法人團體之行為定為刑事犯罪。   三、有關域外管轄權部分,原先僅適用於「未在澳洲設立登記,但有在澳洲境內蒐集個資且經營業務」之公司;現刪除「有在澳洲境內蒐集個資」之規定,故未在澳洲登記之公司往後即使未在澳洲境內蒐集個資,若有在澳洲境內經營業務即受有域外效力之管轄,其範圍甚至將比歐盟GDPR之域外管轄權更為寬廣。   至於提高裁罰金額能否提升資安及個資保護之效益仍有待商榷,惟提高罰鍰額度應能使持有個資業者採行較高之資料保護安全措施等級。我國近期亦發生2,300萬筆民眾戶政資料外洩事件,依我國《個人資料保護法》規定,個資事故發生時,若被害人不易或不能證明其實際損害額時,法院依侵害情節,以每人每一事件500以上至2萬元以下計算財產損害。且同一原因事實造成的事件,原則上其賠償最高總額以2億元為限。若我國將來修法適當調整金額,相信有望遏止類似事故不斷發生。   *調整型營收(adjusted turnover):指公司(及相關企業)在違規期間內營業額扣除應調整之稅額例外項目後,所有商品及服務價值的總和。

TOP