合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=86&tp=5 (最後瀏覽日:2026/02/10)
引註此篇文章
你可能還會想看
歐盟網路中立性議題發展—2009~2013年兩次電子通訊管制法律改革之觀察

從國內外實務見解談企業對員工之電子郵件監控

紐西蘭通過數位身分服務信任框架,如經簽署將於2024年施行

紐西蘭眾議院(New Zealand House of Representatives)於2023年3月通過數位身分服務信任框架法案(Digital Identity Services Trust Framework Act,以下稱本法案),旨在建立數位身分信任制度。本法案為數位身份服務商提供自願認證計畫,政府將授予符合信任框架規範之服務商認證。數位經濟與通訊部(Minister for the Digital Economy and Communications)指出,數位身份目前缺乏一致的辨識標準,而信任框架的訂定將有助於緩解身份盜用、詐欺與隱私資料外流之風險。茲所附言,本法案如經總督簽署將於2024年生效。 蓋紐西蘭針對政府數位化與數位轉型已擬定多項計畫、策略,其中包含建構安全、分散且以用戶為中心的數位身份管理制度,而本法案的通過與施行將為上述制度奠定基礎,其特性說明如下: 一、去中心化資料儲存:數位身分資料傳遞是由資訊提供者(如政府、銀行或公用事業公司等持有個人資訊者)、用戶(資料所有者)與服務商三方形成連結網絡,而非源自集中保存身分資料之數據資料庫。 二、以用戶為中心:若用戶有驗證或提供身分資訊之需求,經過政府認證符合信任框架規範的服務商,可在用戶的許可與請求下,傳送相關資料給用戶指定之第三方(需求者)。 三、非強制性機制:紐西蘭政府將不會強制服務商、用戶及需求者使用依本法案所建構之數位身分信任機制。 四、交互認證:基於紐西蘭與澳洲的單一經濟市場議程(Single Economic Market, SEM),本法案將符合對應英國、澳洲與加拿大有關數位信任之規範,減少因法規差異產生之成本和歧視。

歐盟人工智慧辦公室發布「通用人工智慧實踐守則」草案,更進一步闡釋《人工智慧法》之監管規範

.Pindent{text-indent: 2em;} .Noindent{margin-left: 2em;} .NoPindent{text-indent: 2em; margin-left: 2em;} .No2indent{margin-left: 3em;} .No2Pindent{text-indent: 2em; margin-left: 3em} .No3indent{margin-left: 4em;} .No3Pindent{text-indent: 2em; margin-left: 4em} 歐盟人工智慧辦公室(European AI Office)於2024 年 11 月 14 日發布「通用人工智慧實踐守則」(General-Purpose AI Code of Practice)草案,針對《人工智慧法》(Artificial Intelligence Act, AIA)當中有關通用人工智慧(General Purpose Artificial Intelligence, GPAI)之部分,更進一步闡釋相關規範。 本實踐守則草案主要分為4大部分,分別簡介如下: (1)緒論:描述本守則之4個基本目標,包含協助GPAI模型提供者履行義務、促進理解人工智慧價值鏈(value chain)、妥適保障智慧財產權、有效評估且緩解系統性風險(systemic risks)。 (2)GPAI模型提供者:有鑒於GPAI模型對於下游系統而言相當重要,此部分針對模型提供者訂定具體責任。不僅要求其提供訓練資料、模型架構、測試程序等說明文件,亦要求制定政策以規範模型用途防止濫用。另於智慧財產權方面,則要求GPAI模型提供者遵守「歐盟數位單一市場著作權指令」(Directive 2019/790/EC)之規定。 (3)系統性風險分類法(taxonomy):此部分定義GPAI模型之多種風險類別,諸如可能造成攻擊之資訊安全風險、影響民主之虛假資訊、特定族群之歧視、超出預期應用範圍之失控情形。 (4)高風險GPAI模型提供者:為防範系統性風險之危害,針對高風險GPAI模型提供者,本守則對其設立更高標準之義務。例如要求其於GPAI模型完整生命週期內持續評估風險並設計緩解措施。 本守則發布之次週,近千名利害關係人、歐盟成員國代表、國際觀察員即展開討論,透過參考此等回饋意見,預計將於2025年5月確定最終版本。

TOP