合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/03)
引註此篇文章
你可能還會想看
取締盜版有成 台灣改列特301一般名單

  美國貿易代表署公布最新特別301名單,我國從優先觀察名單降級成為一般觀察名單,經濟部智慧財產局長蔡練生表示,我們的目的是希望能除名,儘管這次只是降級,還是積極爭取希望在5月的年度報告能夠獲得除名。蔡練生表示,美國貿易代表署去年5月3日公布2004年特別301名單,我國列為優先觀察名單,並宣布去年秋季會進行不定期檢討,當時同樣被列為不定期檢討對象還包括馬來西亞和波蘭,不過這次只有台灣獲得降級。   台灣已經連續四年名列美國特別301優先觀察國家名單,近年來政府修法,加強取締盜版,獲得美國方面認同,今年終於獲得降級,並在美東時間1月18日正式公布我國降級。   蔡練生指出,優先觀察名單和一般觀察名單之間的差異是層次問題,列為優先名單者美國會給予六個月的觀察期,讓其改善機會,如果沒有改善就會採取貿易報復手段;一般觀察名單的觀察期,則延長為一年。

歐盟環保新指令 科技業2,000億產值受衝擊

  歐盟將於今年8月實施兩大環保新指令,廠商生產的電機電子產品,包括材料、元件、製程等,都必須符合可回收55%至75%的規定,才准輸往歐盟,預估將影響國內科技業者輸出產值達新台幣2,000億元。   台灣區電機電子公會調查,中大型電子業廠商大都準備完成,中小型業者則未必。前年我國電子產品輸出金額達1兆元,屬於中小型零件廠製造的產值超過三分之一,金額達3,500億至4,000億元。經濟部委託工研院調查,國內可能面臨重大衝擊,預估有44項產品受管制,占歐盟管制81項產品的一半以上。業者的回收成本將增加3%至5%,調整產品材質及零件成本也提高5%至10%。   歐盟實施的環保指令分別是:廢電機電子指令(WEEE)、危害物質限用指令(RoHS)。前者是針對10大廢電機電子品,建立回收體系,並達成法定一定的回收率55%至75%,要求至2006年12月,每年每人回收4公斤。後者是國際企業必須自我要求8月完成停止使用含有重金屬鉛、汞等六種化學物質的電子產品,如IC封裝、電腦塑膠零件等。2006年7月將全面禁止輸入。

開放原始碼組織有意減少授權版本

  開放原始碼協會(Open Source Initiative,簡稱OSI)的新任總裁Russ Nelson在3月2日提出了一項新的提案,希望解決一項重大的問題:開放原始碼授權的擴增問題。亦即,只要符合該組織的10點開放原始碼定義,OSI可提供正式開放原始碼授權(licenses,或稱「許可」)身份。   在寄給開放原始碼社群的一份聲明裡,Nelson表示,新的條款規定:授權不可與既有的授權重覆;必需以清楚、簡單,而容易了解的方式撰寫;以及把個人、專案或組織的名稱通通移至隨附的附件中,以便讓授權書可重複使用。    Nelson在接受專訪時表示,新條款要由OSI董事會通過才可生效。董事會成員已經過過該提案,但還未安排好投票的議程。OSI並不打算取消已經通過的授權認證,Nelson表示。他認為,推出「OSI Gold」升級認證應該可達到同樣的效果。他進一步表示,新的條款是否能夠有效減少授權數量,還要看執行是否有力。

紐西蘭通過「危害性數位通訊規制法」,對網路霸凌行為進行管制

  紐西蘭於2015年7月通過了「危害性數位通訊規制法」(Harmful Digital Communications Act)。有鑑於網路霸凌現象日益嚴重,甚至影響紐西蘭人民生命及身體安全,故而修訂法律規範之。 重點摘錄: 一、目的:減輕數據通訊對個人造成之傷害,並提供有害數據通訊之受害者提供補救的快速和有效的手段。 二、方法:   (一) 創建新的民事執行制度,以迅速有效地處理有害的數據通訊內容。   (二) 創建新的刑事犯罪,以應對最嚴重的有害的數據通訊行為。   (三) 修正現行法規,以釐清數據通訊和技術的發展適用範圍。 三、內容:   (一) 授權法院得要求網路通訊協定地址提供者(Internet Protocol Address Provider (IPAP))提交匿名之通訊傳播者資訊。   (二) 經受害學生同意後,其所屬學校之負責人得代表進行訴訟程序。   (三) 法院得依據「威脅將造成損害」(threats to cause harm)標準發布命令。   (四) 若不遵守法院命令將有刑事責任。   (五) 行為人經確定判決後,可處2年以下有期徒刑。   (六) 網路內容所有者(online content host)應設置聯絡機制。供使用者聯絡回報,並課予收到申訴時48小時內通知內容作者、申訴人以及取下霸凌內容之責任。   惟法律之修訂,亦引起相關批評,因「有害的」(harmful)之定義不明,而以刑事規制之,恐有侵害言論自由之疑慮。

TOP