合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/30)
引註此篇文章
你可能還會想看
簡介2012年ITU國際電信大會修訂國際電信規則

  ITU舉辦之國際電信大會(WCIT2012)甫於2012年12月14日結束,本次會議之重點在於檢討自1988年首次制訂後,便一直都不曾再修訂之國際電信規則(ITRs)。依據會議公布之最終文件內容,修訂包含: 1.網路安全維護:新修訂之規則中,要求各會員國應確保國際電信網路之安全性與穩固性,避免受到技術性損害。 2.管制濫發電子訊息:要求各會國應採取措施,防制未經許可之濫發電子訊息,以減少對國際電信服務之影響。 3.保障身心障礙者獲取電信服務:要求各會員國應參考ITU制訂之標準與建議文件,保障身心障礙者獲取電信服務之權益。   在修訂電信規則之外,本次會議尚通過數項決議,包含: 1.安排特別措施,幫助位居內陸或島嶼型的開發中國家,維護接取國際光纖網路的權益與需求。有鑑於開發中國家與國際網路接駁時,無論就成本或實體線路接取,均需已開發國家之幫助,使其在高速光纖網路發展趨勢下,能以合理費用與國際接軌。 2.設立全球統一緊急服務號碼:由於緊急服務對於全球使用者(特別是旅行者)非常重要,ITU於本項決議中責成技術部門與會員國協調,研究建立全球統一之電信緊急服務號碼。 3.建立發展網際網路之有利環境:意識到網際網路成為全球資訊社會化之重要基礎設施,希望各會員國持續發展與確保網際網路之穩定性與安全性,建構有利網際網路持續發展之環境。   ITU對國際電信標準與規範具有巨大的影響力,對我國未來電信法制之發展亦將有深遠影響,WCIT會議結束後,新修訂之國際電信規則也正提交各會員國進行簽署,在生效後將對各國電信法制造成影響,我國電信法制亦應及早進行研究,關注新規則發展狀況,並分析不足之處,以與國際接軌。

歐洲專利局發布人工智慧與機器學習專利審查指南正式生效

  歐洲專利局(European Patent Office, 下稱EPO)於2018年11月1日發佈新版專利審查指南已正式生效。此次新版的焦點為Part G, Chapter II, 3.3.1關於人工智慧(Artificial Intelligence, AI)與機器學習(Machine Learning, ML)的可專利性審查細則。   在新版審查指南Part G, Chapter II, 3.3中指出數學方法本身為法定不予專利事項,然而人工智慧和機器學習是利用運算模型和演算法來進行分類、聚類、迴歸、降維等發明,例如:神經網路、遺傳演算法、支援向量機(Support Vector Machines, SVM)、K-Means演算法、核迴歸和判別分析,不論它們是否能夠藉由數據加以訓練,此類運算模型和演算法本身,因具有抽象的數學性質而不具專利適格性。   其中,EPO亦針對人工智慧和機器學習相關應用舉例下列特殊情形,說明可否具備發明技術特徵:   (一)可能具技術性 在心臟監測儀器運用神經網路辨別異常心跳,此種技術為具有技術貢獻。 基於低階特徵(例如:影像邊緣、像素數值)的數位影像、影片、音頻或語言訊號分類,屬於分類演算法的技術應用。   (二)可能不具技術性 根據文字內容進行分類,本身不具技術目的,而僅是語言學的目的(T 1358/09) 對抽象數據或電信網路數據紀錄進行分類,但未說明所產生分類的技術用途,亦被認定本身不具技術目的,即使該分類演算法的數據價值高(例如:穩健性)(T 1784/06)。   在新版審查指南中亦指出,當分類方法用於技術目的,其產生之訓練集(training set)和訓練分類器(training the classifier)的步驟,則能被視為發明的技術特徵。   近年來,人工智慧技術的應用分佈在我們的生活中,無論是自駕車、新藥開發、語音辨識、醫療診斷等,隨著人工智慧和機器學習技術快速發展,新版的審查指南將為此技術訂定可專利性標準,EPO未來要如何評判人工智慧和機器學習相關技術,將可透過申請案之審查結果持續進行關注。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

從美日共同侵權責任認定之實務發展談創新服務方法發明之專利布局策略

美國FDA對於基因工程鮭魚核准上市及產品標示議題,舉行公聽會討論

  美國食品和藥物管理局(U.S. Food and Drug Administration,FDA)於2010年9月19日到21日針對是否核准基因工程鮭魚(genetically-engineered salmon,GE salmon)上市舉行了公聽會。經過各界討論,目前仍未做出決定,但各界均同意於決定是否核准該鮭魚上市前,仍需做進一步的研究測試。   該基因工程鮭魚又名 AquAdvantage,其成長賀爾蒙不但只於較高溫度的水域環境時才分泌,而亦可全年都分泌該種賀爾蒙。因此特性,此種鮭魚成長速度比一般同類型的鮭魚快兩倍,而其所能被食用的時間也相對較早。   根據美國FDA的報告結論,基因工程鮭魚的安全性和其他類型的鮭魚一樣,所以如果為人類食用的話,並不會造成危險。此外,該鮭魚的養殖地點與海岸仍有一段距離,因此其可能對野生鮭魚造成威脅的問題可被忽視。然而,於本次公聽會中也提出,由於現階段的研究數據結果不足,因此仍須進行進一步的相關測試後才能做出結論。   另外,對於基因工程鮭魚上市後該如何標示該產品,也是另一個討論重點;針對此議題,美國FDA會另外舉行公聽會。目前,美國FDA對於上市核准的食物標示僅要求需標示其身分、營養成分、和潛在的過敏反應即可。由於美國FDA認定該基因工程鮭魚與一般鮭魚並沒有“生物學上的相關差異性”(no biologically relevant different)存在,對此,美國FDA表示,相同的作法有可能也會適用於基因工程鮭魚上。就社會大眾知的權利和現行法制的適用兩者間該如何取捨,即變成了當前該議題的討論重點所在。故,美國FDA未來是否會准許該種基因工程鮭魚上市,且上市後其食品標示又該如何加以標示,都是未來需要再做進一步觀察的。

TOP