合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/25)
引註此篇文章
你可能還會想看
日本正式打擊動畫與漫畫盜版 橫跨十五家企業聯手合作

  去年七月日本成立的「漫畫、動畫盜版對策協議會」上個月開始了所謂「MAG PROJECT」,針對中國、美國與歐洲等海外約100個提供盜版的網站,以約5個月的期間,透過電子郵件集中請求刪除盜版內容。   主要打擊對象為提供影音分享的網站、提供漫畫線上閱讀的線上閱讀網站與累積大量盜版資料的儲存空間網站等,在不聽從刪除請求的場合,向當地法院提起訴訟等法律措施也在此次盜版對策的考慮之列。主要保護對象預計包括在日本海外也相當熱門的「one piece(海賊王)」、「名偵探柯南」等總計約580部作品。   「漫畫、動畫盜版對策協議會」包括有東映動畫、吉卜力工作室、角川、講談社、小學館、集英社等等總計15家企業參加,由CODA(內容海外流通促進機構)負責事務局。   提到盜版,以往主要是重製的漫畫書跟DVD,而現在的主流則是網路。盜版在日本海外網路開始流通的時候,約莫是寬頻開始普及的2006年前後。在盜版流通的背景,除大容量的傳輸變成可能之外,還包括有在美國等地出現的日本動畫熱潮,以及Youtube等動畫分享網站的出現等等因素存在。   根據日本動畫協會的調查,2012年日本動畫製作公司的海外銷售金額為144億日圓,相較最近一期高峰值2005年的銷售金額313億日圓,可謂攔腰折半。另據日本經濟產業省25年度的調查,動畫與漫畫盜版造成的損害,光就美國一地來說,推估高達約有兩兆日圓之多。

歐盟執委會提出《歐盟數位十年網路安全戰略》

  歐盟執委會於2020年12月16日針對未來十年歐盟數位發展,提出《歐盟數位十年網路安全戰略》(The EU's Cybersecurity Strategy for the Digital Decade),以支持塑造歐盟的數位未來(Shaping Europe's Digital Future)、歐洲復甦計畫(Recovery Plan for Europe)和歐洲安全聯盟(EU Security Union Strategy)。該戰略說明應如何加強歐盟共同抵禦面對網路攻擊的應變能力,並確保民眾及企業都能在可信賴的數位服務中受益。   由於COVID-19大流行,加速工作模式的變化,2020年歐盟約有40%的民眾遠距辦公,而同年網路犯罪對全球經濟造成的影響估計達到5.5億歐元。因此,為維護全球開放網路的穩定運作,在保護網路安全的同時,亦應保護歐盟的共同價值觀與人民的基本權利,在監管、投資與政策上提出三點建議: 韌性、技術主權和領導(Resilience, Technological Sovereignty and Leadership):根據網路與資訊系統安全指令(Directive on Security of Network and Information Systems, NIS Directive)修訂更嚴格的監管措施,改善網路和資訊系統的安全。並建立由AI推動的資安監控中心(AI-enabled Security Operation Centres),及時避免網路攻擊。 建立防禦、嚇阻和應變能力(Building Operational Capacity to Prevent, Deter and Respond):逐步建立歐盟聯合網路安全部門,加強歐盟各成員國之間的合作,以提高面對跨境網路攻擊時的應變能力。 透過加強合作促進全球開放網路空間(Advancing a Global and Open Cyberspace):希望與聯合國等國際組織合作,透過外部力量共同建立全球網路安全政策,以維護全球網路空間的穩定及安全。

印度隱私權制度下兒童資料安全的保護現狀

印度電子資訊產業技術部(MeitY)2022年11月在網站上公布了個人資料資訊保護法草案(Digital Personal Data Protection Bill,以下簡稱該法案),並於2023年7月提交議會審查。目前印度民法不承認未成年人(未滿18歲者)具有自主簽訂契約的能力。因此,取得的兒童同意不具有法律效力,必須徵得父母或是監護人的同意才能合法蒐集兒童個人資料。 根據印度2022年個人資料資訊保護法案草案,任何未滿18歲的人都被歸類為「兒童」。該法案中同時限制專門向兒童發送的廣告,並且監管任何追蹤兒童行為的情況。目前國際隱私法(例如:歐盟通用資料保護條例 (GDPR)、加州消費者隱私法(CCPA)等)的兒童定義多在13至17歲之間。但考慮到兒童個人資訊的敏感性和潛在危害,印度政府採取了較保守嚴謹的路線。政府也已被授權制定有關處理兒童個人資訊的細則,特别是確保資料使用人不可使用可能對兒童造成傷害的個人資料。 根據社會發展狀況,兒童若每次在網路平台上進行活動時都需經過父母或是監護人同意不甚妥適,且根據前述說明,兒童界定年齡為18歲以下,若依照統一年齡範圍進行控管,實際執行上面臨窒礙難行之處。故修法者在對於該法案修改意見中,引用了其他國家隱私法中的不同年齡分類限制,以求降低年齡門檻限制,或是根據用戶的年齡制定差異化的授權要求。 另一個產生的爭議為,該如何驗證父母或是監護人的同意表示。法條中目前無明確規範何為「有效之同意表示」,現行各平台使用不同的方法獲得父母或是監護人的同意,目前有兩種方式,包括點選「同意」按鈕,或是在用戶條款中表示若使用服務等同於監護人同意。 關於兒童年齡之界定,是否將參考其他國家規範進行差異化設定,目前暫無明確定論(包括如何調整、年齡級距設定),根據資訊使用的普及,兒童年齡的界定可以預期的將會進行調整;關於如何有效驗證父母或是監護人的同意表示,目前在技術上大多服務商都偏好透過會員註冊時的同意按鈕或是用戶條款中列明若使用服務即代表同意這兩種方式認定,在這兩種方式之後,系統是否有設定驗證機制,以及需要何種驗證方式才可以認定父母或是監護人的同意表示是符合法律效力的,都需後續再進行研擬。

歐盟執委會同意德國全面開放寬頻市場

  在歐盟公布電子通訊網路的規範架構後,德國電信主管機關聯邦網路局Bundesnetzagentur(BNetzA)於2005 年10月11日提出寬頻接取批發市場的規劃草案,提案內容包含顯著市場力量(SMP)及寬頻網路市場的定義,不過卻將超高速網路接取(very high-speed internet access)排除在寬頻接取市場的定義之外,由於此將涉及德國在流量接取(bitstream)及寬頻接取市場的有效競爭,以及有可能影響具有顯著市場力量的德國電信公司(Deutsche Telekom)與後進電信業者建置VDSL基礎設施或提供寬頻多媒體服務的意願。因此此項草案在送交資訊社會媒體執委會後,引發了諸多爭論。多數委員認為如未將VDSL列入寬頻接取批發市場的定義中,將會導致其他業者無法以同一立足點與德國電信競爭。在BnetzA將VDSL列入市場定義,並允以流量作為批售基礎而重提規劃案後,歐盟執委會於2005年12月23日通過決議,同意德國的電信主管機關聯邦網路局Bundesnetzagentur(BNetzA)全面開放含VDSL在內的高速寬頻網路市場。

TOP