合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/06)
引註此篇文章
你可能還會想看
奈米產品蘊藏健康風險,其管理應更慎重

  許多天然或人造的成分被奈米化之後,物理和化學性質可能都會改變,今年三月底,在德國即出現一起疑似因為使用奈米科技製造的廁所清潔噴霧劑「魔術奈米」,陸續出現嚴重呼吸問題,被送往醫院診治,其中六人還因肺水腫住院的案例,可見奈米級產品的安全性應有更為審慎之把關。   在各式奈米級產品中,「添加顏料、金屬和化學藥劑,是奈米化妝品與保養品對人體健康的最大變數!」美國 FDA 規定, 1 到 100 奈米( nm )微粒的保養品、化妝品都算是奈米產品,用來防曬的二氧化鈦是最常被添加的金屬成分,傳統粗顆粒的防曬用品,利用二氧化鈦擋住紫外線傷害皮膚,但鈦成分變成超細微粒,進入皮膚底層後會不會沈澱、累積,衍生皮膚癌、中毒或過敏病變?或經由血液沈積在內臟?目前都沒有具公信力驗證單位可以說明。各式化妝品調色的顏料,以及美白等用途的化學藥劑也被奈米化,對塑造時下流行的「裸妝」效果,確實很有幫助,不過,一旦這些化學製成的奈米微粒粒徑小於 50 到 80 奈米,也就是小於角質細胞的間隙,就會對皮膚造成傷害。至於奈米化的蜜粉和粉餅,可能因為撲粉過程把奈米微粒吸入肺部,產生呼吸道病變,甚至有致命危機。因此,許多學者均強烈主張,化妝品、保養品要上市販售之前,必須完成醫學上的病理實驗,不要把人當白老鼠。   生活中已經有多種產品以奈米化之形式推出,例如:保養品、化妝品奈米化的速度很快,許多製造商推出的新保養品均號稱含有奈米微粒,可深入肌膚,達到防皺、除皺功效。但是,英國皇家學會和美國食品藥物管理局( FDA )相繼表示,醫學界對奈米微粒與肌膚相互作用的知識還相當貧乏,除了深入肌膚的功效有待驗證外,更要注意這些奈米微粒是否會對血液產生長期的影響。   奈米科技是否會步上基因改造食品的後塵,成為消費者對新科技存疑之另一項技術,值得注意。奈米科技在風險未被證實前,業者腳步走太快,而政府完全放手不管,一旦出現意外事故,就可能把這項新科技給毀了。故要求主管機關要有所作為呼聲已經陸續出現,繼英國皇家學會最早投入相關之健康風險研究後,美國消費者團體亦透過 petition 機制,要求 FDA 加強對奈米級產品之管理。

techUK和UK Finance共同呼籲英國脫歐後應速採取行動保護英國和歐盟的企業和消費者資料跨境傳輸

  隨著資料多元應用,大量個資可能被企業、組織等從銀行、線上零售業者傳輸到雲端、學術機構等,因此在跨境傳輸基礎上需要共同的監管制度,以利資料保護和隱私標準。英國科技產業協會(techUK)和英國金融協會(UK Finance)共同於2017年11月30日呼籲英國政府和歐盟應迅速採取行動,以利於繼續保護消費者和企業在英國退出歐盟(Brexit)後兩地跨境傳輸個資。   另外,在Dentons國際律師事務所提出關於歐盟與英國未來資料共享關係之聯合報告(No Interruptions: options for the future UK-EU data sharing relationship)中,techUK和UK Finance說明英國和歐盟雙方如何達成適當保護協議(adequacy agreement),英國政府亦於2017年8月發布個人資料交換和保護未來合作文件(The exchange and protection of personal data - a future partnership paper),將持續依一般資料保護規則(General Data Protection Regulation, GDPR)調整,而在過渡期間為企業提供監管確定性,而公司亦需重新考慮GDPR於2018年5月實施後相關替代機制,如企業自我約束規則(Binding Corporate Rules, BCRs)、標準契約條款(Standard Contractual Clauses, SCCs)等。由於英國2019年3月脫歐後,將不會直接適用GDPR,因此除非有新的安排,個資在歐盟傳輸仍可能受限,而需昂貴複雜替代機制,故仍應速採取行動: 歐盟和英國應速開始適當保護評估程序(adequacy assessment processes)。 為避免個資傳輸之「懸崖邊緣」(“cliff-edge”),應即為過渡期之安排。 英國應考慮實施其他措施,確保歐盟對英國資料保護框架之擔憂能獲解決,尤其是國家安全目的之資料處理。 英國應確保國際傳輸制度(包括美國在內),與歐盟具相同保護水準,且此作為歐盟適當保護評估的關鍵。

歐盟執委會同意德國全面開放寬頻市場

  在歐盟公布電子通訊網路的規範架構後,德國電信主管機關聯邦網路局Bundesnetzagentur(BNetzA)於2005 年10月11日提出寬頻接取批發市場的規劃草案,提案內容包含顯著市場力量(SMP)及寬頻網路市場的定義,不過卻將超高速網路接取(very high-speed internet access)排除在寬頻接取市場的定義之外,由於此將涉及德國在流量接取(bitstream)及寬頻接取市場的有效競爭,以及有可能影響具有顯著市場力量的德國電信公司(Deutsche Telekom)與後進電信業者建置VDSL基礎設施或提供寬頻多媒體服務的意願。因此此項草案在送交資訊社會媒體執委會後,引發了諸多爭論。多數委員認為如未將VDSL列入寬頻接取批發市場的定義中,將會導致其他業者無法以同一立足點與德國電信競爭。在BnetzA將VDSL列入市場定義,並允以流量作為批售基礎而重提規劃案後,歐盟執委會於2005年12月23日通過決議,同意德國的電信主管機關聯邦網路局Bundesnetzagentur(BNetzA)全面開放含VDSL在內的高速寬頻網路市場。

Google與Klausner Technologies公司之專利訟訴和解

  根據路透社(Reuters)報導指出,Google,和日前亦接獲到Klausner Technologies公司之專利訴訟LG, Apple,Skype以同意授權方式,結束可視覺化語音信箱(visual voicemail)之智慧財產權訴訟案。   提出訴訟案為Klausner Technologies公司之CEO,亦為可視覺化語音信箱技術發明人Judah Klausner,其擁有美國、歐洲與亞洲之專利。目前市場上熱門的可觸控式手機具有可視覺化語音信箱特性,包含Apple’s iPhone都具有其功能性。   此案主要涉及Klausner之專利擁有可視覺化語音信箱技術,類似電子郵件,使用者可利用電腦或電話傳送可視覺化之語音訊息,並讓使用者具選擇性收取訊息。   目前Google擁有兩種服務,受Klausner’s專利之影響,其一讓使用者透過Grand Central提供一簡單網際網路語音溝通平台,另一為具Android自由軟體平台之智慧型手機。該案以和解方式結束,但Klausner婉拒與路透社說明,該公司與Google之間協議內容。

TOP