合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/04/14)
引註此篇文章
你可能還會想看
歐盟執委會發佈產品能源標章政策研究報告

  歐盟實施能源標示(Energy Label)制度已屆滿20週年,目前能源標示制度下,主要針對家電產品(house appliances)之能源標示進行管制,共分為七個層級,即A、B、C、D四等級外,另於能源效率表現較好之A等級之上,再行劃分A+、A++、A+++三等級。   歐盟執委會於2012年10月下旬公告能源標示市場調查研究,期在目前能源標示制度(Directive 2010/30/EU)下,探究未來二種可導入的模式: 模式一,導入碳足跡(carbon footprint)、水足跡(water footprint)、資源消耗(resource depletion)、水毒性(water eco-toxicity)等四種環境衡量指標;模式二,僅導入碳足跡(carbon footprint)衡量指標。本研究旨在建立是否上述二種模式能鼓勵消費者採購更佳環境友善的產品,其次,測試消費者對於不同節能績效產品之採購意願。   本研究報告分為三大面向,第一大面向,檢視當前能源相關標示制度與資料,分析產品的碳足跡和環保標示。第二大面向,擇定三個市場,進行消費者質化研究。第三大面向,擇定九個市場並六千名消費者,就消費者之行為調查。   觀歐洲議會已於2012年底就若干產品之能源標示進行審議,與歐盟經貿關係亦屬密切之台灣當持續關注此項議題。

優質網路社會基本法之推動芻議

中國大陸之工業和信息化部發布《算力標準體系建設指南》之徵求意見稿,欲加強算力低碳標準發展

2025年10月21日,中國工業和信息化部發布《算力標準體系建設指南》(徵求意見稿),公開徵求意見。提出九大部分,包含基礎通用、算力設施、算力設備、算網融合、算力互聯、算力平台、算力應用、算力安全以及綠色低碳標準。其中,「綠色低碳」標準旨在引導算力產品、平台及應用在全生命週期內實現環境友好、資源節約與能源高效利用,包含: 1. 綠色低碳產品標準:規範算力產品從設計、生產、使用到廢棄處理全過程的環境影響。包括節能設備技術要求、有害物質管控、材料回收與循環利用,以及生命週期評估(LCA)等標準。 2. 綠色低碳平台標準:建立可以整合統計與分析電、水、碳、熱、冷等資訊的綜合性管理平台。標準涵蓋了平台的架構設計、數據對接與管理功能,以實現能源使用的精細化監測。 3. 綠色低碳應用標準:針對算力服務過程中的環保表現進行評價,包含碳足跡核算、環境適應性、綠色供應鏈管理以及綠色算力的計算方法。 4. 能效監測技術標準:定義算力中心的各項能效核心指標,如電效、水效、碳效及空間效率。此外,也規範了監測頻率、先進節能技術的使用規範以及可再生能源的使用佔比。 5. 算力電力協同標準:規範算力資源與電力資源的協同調度,重點包含「源網荷儲」一體化、算電協同管理及相關關鍵設備的技術要求,以提升整體能源利用效率。 根據徵求意見稿,到2027年,中國將在算力通用基礎、基礎設施、設備、網路融合、平台、應用、安全以及綠色低碳等領域,制定或修改50項以上標準。

Google新版桌面搜尋工具引發隱私權顧慮

  Google在2006年2月11日推出最新版的桌面搜尋工具Google Desktop 3,它的最新功能可以讓用戶同時搜尋多台電腦的資料。當啟用這項功能後,它會將電腦裡的文件和文字檔案(如Word、Excel)內容予以複製上傳到Google的伺服器上。當用戶在一台電腦搜尋資料時,也會在其他台安裝此工具的電腦自動開始搜尋。Google 表示,目前已經有很多人同時使用數台電腦,這個新功能可以讓使用者的生活更為便利。   但是倡導網路隱私權的團體Electronic Frontier基金會卻表示憂慮。由於新功能可能會讓駭客更容易盜取用戶個人資料,用戶的個人隱私將面臨更大的威脅。該基金會律師Fred von Lohmann認為,使用者應重視個人資料被放在Google伺服器上可能產生的問題,這比便利性更為重要。因為使用時若未花時間處理功能選項和設定問題,它將可能導致個人資料諸如納稅、醫藥和財物紀錄,以及其他文字檔案等資料外洩。

TOP