合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/02/04)
引註此篇文章
你可能還會想看
日本《研究資料基盤整備與國際化戰略》報告書

  日本因應各先進國家近年於開放科學概念下,政府資助研發計畫研究資料管理及開放之倡議與制度化推展趨勢,內閣府於2015年提出開放科學國際動向報告書,並在第5期科學技術基本計畫與2019年統合創新戰略中規劃推動開放科學。上述政策就研究資料管理開放議題,擬定了資料庫整備、研究資料管理運用方針或計劃之制定、掌握相關人才培育與研究資料運用現況等具體施政方針。在此背景下,內閣府於2018年設置「研究資料基盤整備與國際化工作小組(研究データ基盤整備と国際展開ワーキング・グループ)」,持續檢討日本國內研究資料管理、共享、公開、檢索之基盤系統建構與政府制度、國家研究資料戰略與資料方針、國際性層級之推動方向等議題,在2019年10月據此作成《研究資料基盤整備與國際化戰略》(研究データ基盤整備と国際展開に関する戦略)報告書,形成相關政策目標。   本報告書所設定的政策目標採階段性推動,區分為短期目標與中長期目標。短期預計在2020年前,正式開始運用目前開發測試中之研究資料基盤雲端平台系統(NII Research Data Cloud, RDC),針對射月型研發計畫研擬並試行研究資料管理制度,建構詮釋資料(metadata)之集中檢索體系,並建立與歐洲開放科學雲(EOSC)之連結;中長期目標則規劃至2025年前,持續調適運用RDC,正式施行射月型研發計畫之研究資料管理制度,確立共享與非公開型研究資料之管理框架,蒐整管理資料運用現況之相關資訊,並逐步擴張建立與全球研究資料共享平台間之連結。

歐盟預計修法促進新穎性食品發展

  歐盟為了要加速新穎性食品之上市、促進食品科技之發展,並加強複製動物乳肉品、奈米食品或外來等新穎性食品之上市查驗,今(2008)年初歐盟執委會(Commission)即針對1997年新穎性食品規則(Regulation (EC) No 258/97 concerning novel foods and novel food ingredients)提出修正建議案,而現行規則最大爭議,則在於其未能涵蓋1997年以後才研發出的食品以及在歐盟未大量食用但在國外已廣泛食用等兩類食品。   新規則草案的修正重點,將放在:(1)排除已受其他專門法規管轄之食品,包含生技產品(即基因改造食品、GMO)、食品添加物、調味料、酵素、維他命與礦物質(類似我國健康食品、保健食品)等。(2)建立單一、簡化的中央查驗制度(centralised authorisation system),由歐盟食品安全署(EFSA)進行安全評估後由執委會發布許可。(3)明定適用範圍包含運用非傳統育種技術所得之植物來源食品(food of plant or animal origin when to the plant and animal is applied a non-traditional breeding technique not used before 15 May 1997),亦即含複製動物食品,以及運用新生產製程所得之食品(food to which is applied a new production process, not used before 15 May 1997),即涵蓋運用奈米科技所製造奈米食品。此外,新規則亦提供研發新科學證據及資料並申請獲准的公司,享有5年的資料專屬保護(data protection,即data exclusivity),用以促食品及食品生產技術之研發。

歐盟將開發一套適用於全歐盟的權利登記系統,促使數位館藏的授權可以在一個透明且價格合理的機制下進行

  德國總理Angela Merkel在日前舉辦的法蘭克福書展中強調,反對在google在未釐清相關權利與建置對應的配套機制下,擅自將圖書典藏掃描數位化的作法。而不只德國反對Google的數位圖書計畫,歐盟執委會也在10月19日通過提案,要求歐盟正視圖書館藏數位化的智慧財產權議題,提案委員也督促歐盟應儘快採取行動,配合歐盟著作權法體系,發展更具競爭力的歐盟館藏數位化方案。   然在館藏書籍數位化的過程中,有必要先解決孤兒著作(verwaiste Werke)因著作人不明而無法進行數位化及授權的困境。據估計,英國圖書館館藏就有40%屬於孤兒著作。為找出一套簡易的授權機制,並建立歐盟各國針對孤兒著作共通的認定標準,歐盟在eContent Plus計畫架構下,於2008年11月便開始所謂「ARROW行動方案(Accessible Registries of Rights Information and Orphan Works)」,希望透過各國圖書館、著作權集體管理團體、出版商間的參與,整合歐盟境內不同的權利登記機制,共同開發出一套適用於全歐盟的權利登記系統,清楚顯示歐盟境內各種著作的權利狀態,促使數位館藏的授權可以在一個透明且價格合理的機制下進行,同時確保著作人可以得到適當的報酬。   有關歐盟針對圖書數位化的政策與討論,以及google數位圖書協議後續協商的結果,仍有待持續追蹤觀察。

美國國會眾議院發布數位資產市場結構法案討論稿,期望建立明確監管框架

隨著加密資產與區塊鏈技術的迅速發展,美國國會眾議院於2025年5月5日提出《數位資產市場結構法案討論稿》(Digital Asset Market Structure Discussion Draft),旨在制定新法並同時修改多部美國聯邦金融法規,以建立數位資產的清晰監管框架,期促進美國數位資產市場創新、投資人保障與維護市場公平,其討論重點如下: 1. 數位資產定義與監管職權劃分:於證券法(Securities Act)與商品交易法(Commodity Exchange Act)新增大量關於數位資產的定義,並明確劃分證券交易委員會(Securities and Exchange Commission, SEC)與商品期貨交易委員會(Commodity Futures Trading Commission, CFTC)的監管界線。 2. 去中心化金融(Decentralized Finance, DeFi)、穩定幣與成熟區塊鏈系統的豁免機制:成熟區塊鏈系統、受核准的支付型穩定幣(Permitted Payment Stablecoins)與特定DeFi活動(如:驗證交易、提供用戶介面等)得排除法令適用,為區塊鏈項目提供更彈性的監管途徑。 3. 市場參與者註冊要求:規定數位商品交易所、經紀商、交易商之市場參與者,應向CFTC註冊之相關要求,遵循包含資本規範、客戶資金隔離、交易監控、報告義務等原則,以提升市場透明度和投資者保護。 4. 數位資產領域研究:要求SEC與CFTC應設立金融創新辦公室(Offices of Financial Innovation) 和創新實驗室(LabCFTC),進行多項關於數位資產領域的研究,包含DeFi、金融市場基礎設施之改善等,以提供監管機構新興技術資訊。

TOP