合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=57&tp=1 (最後瀏覽日:2025/11/25)
引註此篇文章
你可能還會想看
OECD發布《抓取資料以訓練AI所衍生的智慧財產問題》報告

經濟合作與發展組織(Organisation for Economic Co-operation and Development, OECD)於2025年2月9日發布《抓取資料以訓練AI所衍生的智慧財產問題》報告(Intellectual property issues in artificial intelligence trained on scraped data),探討AI訓練過程中「資料抓取」對智慧財產之影響,並提出政策建議,協助決策者保障智財權的同時推動AI創新。 資料抓取是獲取AI大型語言模型訓練資料之主要方法,OECD將其定義為「透過自動化方式,從第三方網站、資料庫或社群媒體平臺提取資訊」。而未經同意或未支付相應報酬的抓取行為,可能侵害作品之創作者與權利人包括著作權、資料庫權(database rights)等智慧財產及相關權利。對此,報告分析各國政策法律的因應措施,提出四項關鍵政策建議: 一、 訂定自願性「資料抓取行為準則」 訂定適用於AI生態系的準則,明確AI資料彙整者(aggregators)與使用者的角色,統一術語以確保共識。此外,準則可建立監督機制(如登記制度),提供透明度與文件管理建議,並納入標準契約條款。 二、 提供標準化技術工具 標準化技術工具可保護智財權及協助權利人管理,包括存取控制、自動化契約監控及直接支付授權金機制,同時簡化企業合規流程。 三、 使用標準化契約條款 由利害關係人協作訂定,可解決資料抓取的法律與營運問題,並可依非營利研究或商業應用等情境調整。 四、 提升法律意識與教育 應提升對資料抓取及其法律影響的認知,協助權利人理解保護機制,教育AI系統使用者負責任地運用資料,並確保生態系內各方明確瞭解自身角色與責任。

FCC將電力線寬頻上網(BPL, Broadband over Power Line)服務分類為資訊服務

  FCC經過討論與投票,正式發佈命令將電力線寬頻上網服務分類為跨州資訊服務(interstate information service),而非電信服務,其他寬頻上網科技包括DSL、有線電纜線數據機寬頻上網亦被FCC分類為資訊服務。   過去幾年來,FCC一直大力支持電力線寬頻上網服務,期望電力線寬頻上網服務可以進入寬頻服務市場,與DSL和有線電視纜線數據機寬頻上網服務競爭,以增加寬頻服務市場之競爭,提高美國之寬頻普及率。而就此次所發佈之命令,FCC認為,將電力線寬頻上網分類為資訊服務將可使電力線寬頻上網服務受到較低的管制,有助於達成隨時隨地提供所有美國民眾寬頻接取之目標。其次,FCC在數位匯流時代之管制乃是期望能對於各種不同技術之寬頻接取平台給予一致的管制措施,並且對於相同之服務採取相同的管制方式。基於上述原因,FCC此次將電力線寬頻上網分類為資訊服務並不讓人感到意外。   FCC主席Kevin J. Martin進一步在其聲明中表示,雖然目前電力線寬頻上網人口並不多,然在2005年其成長率卻將近200%,顯見電力線寬頻上網服務之市場潛力不容忽視,將可幫助達成美國總統定下於2007年底前隨時隨地提供全國民眾寬頻網路接取之目標。

新興網路音樂流通模式之法律政策趨勢與實例研討

論政府資料探勘應用之個人資料保護爭議

TOP