合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/05/01)
引註此篇文章
你可能還會想看
惠普 : 軟體專利是必要之惡

  智慧財產權議題涉及專利、著作權和商業機密,近年來因開放原始碼軟體而備受矚目。開放原始碼軟體可共享、修改和重新發布,和傳統專屬軟體的保密性和發布限制迥然不同。   許多開放原始碼與自由軟體倡議人士都痛批軟體專利,相形之下,惠普以擁有大量的專利為傲。2004年惠普一共獲頒1,775項美國專利,在美國排名第四。   惠普Linux負責人表示,開放原始碼程式設計師或許厭惡軟體專利的概念,但最好還是試著自我調適,因為軟體專利是不會消失的。且開放原始碼軟體是在著作權法的基礎上發展而成的,而專利比較麻煩,是因為程式設計師把專利視為削弱他們的自由。另一方面,企業則把專利看待成自家珍貴創意的保護傘。   惠普Linux副總裁Martin Fink批評開放原始碼促進會(Open Source Initiative;OSI)核准開放原始碼授權證書的作法太草率。去年8月,Fink曾指出,開放原始碼授權證書多達52種,實在太多了。現在數目變得更多,因為他抱怨OSI核准任何符合開放原始碼定義的申請案,卻不試著加以整併以強化開放原始碼業的基礎。只基於符合規格就核准授權證書,而未顧及進一步鞏固開放原始碼經營模式的能力,這會構成明顯而迫切的危險。   一家銷售智財權法律免責保險的公司說,調查顯示,Linux作業系統的核心(kernel)可能涉及283項專利侵權。惠普2002年也提醒眾人,微軟可能醞釀對開放原始碼軟體提出專利訴訟。但目前為止這些威脅尚未發生,而紅帽公司(Red Hat)和Novell揚言運用自家專利反制那類威脅,IBM和昇陽也表明不會針對開放原始碼侵犯的數百項專利提出告訴。

何謂物聯網(Internet of Things, IOT)?

  物聯網是指明確可辨識的實體物件與虛擬的類網路代理架構的聯結。它是由馬克.維瑟於1991年所提出,指的是(個人)電腦作為機具設備的形式未來將逐漸消失,而替換為"智慧元件"的形式。當前人們關注的對象已經不再是物體本身,而是人們的各種活動中的物物相連。其在不知不覺中已經提供人們各式各樣的輔助,例如小型化的嵌入式電腦毋需操作,就可以提供各式各樣的輔助。這種微型的電腦,即所謂的穿戴式裝置,可以最大程度地結合不同感應器直接在服裝上出現。   數位化在多個層面正在改變我們的生活和工作方式。現代資訊技術幾乎使任何對象無論是家庭日常物品或工廠內的機器,都能用最小的空間達到強大的計算能力(所謂的“嵌入式系統”)。烤麵包機,洗衣機和機床都可由軟體控制,並可以透過網際網路相互、或與外部世界聯結。   物聯網在居家領域具體將以智慧住宅(Smart Home)形式呈現。運用智慧聯網技術將能獲得更多的舒適性和安全性、節約能源或提供適合各年領階層的生活與和起居。現有的解決方案可以透過智慧型手機遠端控制進行空調、電爐和燈具的使用。未來,洗衣機甚至可以自動尋找最優惠的電價決定洗衣服的最佳時間。   智慧家居若要成功,需得到消費者的接受。故物聯網解決方案必須具有可信賴性(資料保護、資訊安全)、能夠持久並可靠地運作,並能夠在未來繼續穩定地投入智慧家庭的行列。對於製造商和供應商而言,應該以在新的立場和視角來開拓一個新的市場。

環保署提京都議定書因應對策 研擬溫室氣體管制法

  管制全球溫室氣體排放以遏制全球暖化的京都議定書在二月十六日生效,環保署將著手推動溫室氣體管制法的法制作業工作,目前正研擬溫室氣體管制法,規劃將由中央主管機關擬訂「全國溫室氣體防制基本方案」,同時確立政府各部門、企業及國民溫室氣體減量合作及分工;並規範推動國家溫室氣體盤查、登錄及排放清冊建置;授權訂定排放管制、財稅誘因及排放交易制度;推動溫室氣體減量技術研發等;同時推動教育宣導、推廣及鼓勵使用高能源效率產品與節約能源生活方式。   環保署署長張祖恩強調,雖然現有京都議定書條文中沒有貿易制裁或違約罰款的條款,但在合作共生的理念下,我國沒有理由當一個國際溫室氣體減量列車的搭便車乘客(free rider),應在公約精神下,積極推動節約能源、再生能源開發、提昇能源效率等工作。   環保署已於2004年度起首度整合產業、運輸及住商部門領域,辦理溫室氣體盤查管理工作,建立盤查規範登錄平台,積極推動國際標準組織ISO14064驗證系統,並遴選電力、石化、鋼鐵、造紙、水泥、光電半導體等業別12家示範廠商,推動6種溫室氣體全面盤查及減量工作,其中排放大戶台灣電力股份有限公司、中國鋼鐵股份有限公司、中國石油股份有限公司均已參與環保署試行盤查減量計畫。對於溫室氣體排放持續成長的住商部門,環保署協調相關部會規劃成立技術服務團,輔導既有建築物推動節約能源及提昇能源效率工作;對於運輸部門,除持續推動大眾運輸系統外,環保署將與相關部會加強推動油電混合小客車之引進。

西班牙政府向GOOGLE主張「被遺忘的權利」

  西班牙政府要求網路搜尋引擎業者Google刪除有關於90位公民之個人資料搜尋結果。西班牙政府主張當事人具有「被遺忘之權利」(the right to be forgotten),但Google認為西班牙政府之要求將衝擊表達自由之權利。目前全案已進入訴訟程序。   該事件之主因為西班牙民眾發現透過網路搜尋引擎,可以搜尋包含地址、犯罪前科等個人資料。經民眾向西班牙隱私權保護機關(Spain Data Protection Agency)提出申訴後,西班牙政府命令Google刪除申訴民眾之個人資料之搜尋結果。   然而,Google的全球隱私顧問Peter Fleischer於個人部落格中提出個人意見,表示目前歐盟並未對於推行之「被遺忘之權利」給予明確定義,此舉將引起資訊科技發展與法律規範間之爭議。   近來歐盟所進行之民意調查指出,多數歐洲人希望能夠隨時要求網路公司刪除於網路上公開之個人資料,也就是希望擁有「被遺忘之權利」。所謂「被遺忘之權利」,係指只要是於網路上流傳且容易被搜尋之個人資訊,例如年代久遠或是令人尷尬的內容,當事人皆有權利要求刪除。   然而,根據1995年歐盟隱私保護指令(EU Data Protection Directive)所制定之各國個人資料保護法,對於「被遺忘之權利」並無著墨。故有些專家認為,為因應資訊科技之發展,應透過個人資料保護法制之修訂,確認此權利之存在,以避免模糊不清之情形。

TOP