合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/11)
引註此篇文章
你可能還會想看
日本經產省提出創新政策落實方向

由於日本近年研發品質、數量停滯不前,加上企業研發效率亦落後於外國,經濟產業省(簡稱經產省)於2024年6月21日從三個面向提出政策建議,期能打造成功創新模式。重點如下: 1.發揮新創企業與大企業優勢,促進研發投資 由於研發投資具有回收期間長、獲利不確定等特徵,短時內難以看到成效,故為鼓勵企業持續投入研發,經產省擬制定研發投資效率評價指標,並將透過「新創培育五年計畫」(「スタートアップ育成5カ年計画)下之「新創推動框架」(スタートアップ推進枠),將科研預算優先分配予重點項目,以建立友善研發環境。 2.透過新創資源流動,促進商業化和創造附加價值 新創企業初期往往受限於人力、技術和設備等資源不足問題,難以快速成長及擴張。為解決上述問題,經產省擬制定「跨領域學習」指引及案例集,期能促進新創資源流動,打造創新生態系統。 3.以需求為導向之前瞻技術研發 部份具有高度發展潛力之前瞻技術,如量子和核融合等,因研發風險較高且市場需求不明,將由新能源‧產業技術綜合開發機構(新エネルギー・産業技術総合開発機構)、產業技術綜合研究所(產業技術綜合研究所)等法人進行研發。

德國社群媒體管理草案交付立法程序

  德國總理梅克爾(Angela Merkel)所領導的內閣於2017年4月5日通過社群媒體管理草案(Gesetz zur Verbesserung der Rechtsdurchsetzung in sozialen Netzwerken),該法案要求社群媒體必須積極管理使用者散布的仇恨言論及假消息,未善盡義務的社群媒體最高可裁罰5千萬歐元。   德國早於2015年12月已與Facebook、Google及Twitter等知名社群網站達成協議,必須在24小時內刪除網站上的不實或違法言論。但根據jugendschutz.net組織公布的數據,Facebook刪除了39%違法內容、Twitter只刪除了1%違法訊息,而Google的Youtube則需要以其他工具進行實測。由於社群媒體自我管理的效果不彰,促使德國政府認為在業者自律之外,必須要制定法律與罰則讓社群媒體負起責任,積極管理網站上使用者的不實與違法言論。   本草案重點包括: 適用範圍:本草案適用於電信媒體服務提供商,且該提供商之網路平台係以營利為目的,允許使用者與其他使用者共享訊息或對大眾分享任何資訊。 社群媒體必須設立24小時受理案件之投訴管道。 接到投訴後,社群媒體必須在24小時內刪除「明顯違法」之內容,其他有爭議的內容必須在7天內確認並刪除違法內容。 社群媒體必須定期提供主管機關其投訴之處置報告。   本草案已送交德國立法機關進行立法程序,但反對者認為一旦通過立法,可能會對言論自由產生不良影響,並抑制網路言論的發表。德國對於社群媒體之管理,值得持續關注。

因網路詐欺受騙的銀行儲戶控告銀行

  美國佛羅里達州一名商人日常透過網路管理其帳戶資金出入,其資金主要是在美國與中南美洲間流動。該名商人發現其銀行帳戶有異常的資金流向拉脫維亞而向警方報案,經調查發現他的電腦被植入名為Coreflood的特洛伊木馬程式,致其銀行帳戶存取密碼被盜用。該名商人認為銀行明知網路上有此種危險而怠於告知客戶,且銀行明知拉脫維亞以網路犯罪猖獗而著稱,對於其帳戶內大筆的異常資金流出亦疏於防範,爰對銀行提起訴訟。據信,本案為銀行儲戶因受網路詐欺而控告其銀行的首例。

美國加州網路中立法遭司法部提告

  美國加州州長Jerry Brown於2018年09月30日簽署該州的網路中立(Net Neutrality)Senate Bill 822法案,但美國司法部(Department of Justice,DoJ)隨即於同日對加州提起訴訟。DoJ指出Senate Bill 822法案牴觸聯邦政府於2018年對於網際網路採取解除管制之政策,該法案意圖阻撓聯邦政策的施行,有違美國憲法。   美國國會於1996年針對電信法(The Communications Act)制定「聯邦或州對網路低度管制(unfettered by Federal or State regulation)」之政策,美國聯邦通訊委員會(Federal Communications Commission,FCC)為符合該政策,於2002年發布命令,將寬頻網路接取服務列為資訊服務(information service),而美國不將資訊服務提供者以公共事業來看待並進行管理。雖然FCC於2015年就網路中立性訂立規則,要求網路服務提供者(Internet Service Provider)應平等處理所有資料,不得擅自降低流量速度、封鎖網站或服務,以確保任何人獲取資訊時不受不合理的限制。但FCC於2017年12月取消網路中立規定,並確保網際網路會在FCC之低度管制措施下,持續維持其自由與開放性。   DoJ及FCC均認為,網際網路本質上為跨州資訊服務,依據美國憲法第6條第2項規定,憲法、聯邦法律及美國對外條約為全國之最高法律,跨州之商務(interstate commerce)應屬聯邦管轄事項而非州管轄事項。因此,在聯邦政府已廢除網路中立性的情形下,且州政府沒有制定州際貿易規範的權限,則加州政府通過Senate Bill 822法案對網路立法監管,針對網路使用頒布違法且極端的法令,是企圖藉由Senate Bill 822法案破壞聯邦政府的規定,不當限制網路自由,與聯邦政府政策有所牴觸,此為違法及不利於消費者。故DoJ聲明其有責任捍衛聯邦政府的特權(prerogatives)以及維護憲法秩序。為此,DoJ起訴聲明為禁止加州執行Senate Bill 822法案,並請求法院判決Senate Bill 822法案無效。   雖然美國聯邦政府廢除網路中立性,但此政策受民主黨、Facebook、Amazon等著名大型科技公司及消費者的抨擊。因此,就DoJ起訴加州Senate Bill 822法案違法,法院是否認同DoJ所主張的牴觸美國憲法,以及美國對於網路中立性議題的後續發展,值得觀察。

TOP