合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/29)
引註此篇文章
你可能還會想看
Apple專利可望增進iPhone手機警示功能

  Apple實施一方法,主要運用於iPhone手機作業系統上,增加手機警示功能(通知未接訊息特徵)。   AppleInsider發現Apple所申請的專利案,主要針對手機警示功能,與增進iPhone手機作業系統效能為主,其中著重於通知遺漏訊息(notifications of missed messages)及調整手機運用屬性偏好(application preferences)。其描述用戶者可運用手機介面上一通知儀表板(notification dashboard)顯示所有接收訊息的詳細資訊,如未接來電, SMS簡訊等。   目前iPhone手機在呈現像即時文字訊息或未接來電等資訊時,用戶者必須將螢幕鍵開鎖,指定回手機主畫面,並開啟特殊功能,以利取得接收到的文字訊息或語音信箱。   Apple新增通知資訊功能,可讓iPhone手機於開鎖(unlock)狀態下,在接獲到即時電子郵件或未接來電等相關訊息時,用戶者不需要將螢幕鍵開鎖,可直接於iPhone手機介面上滑動儀表板(bar),控制在正確的通知資訊位置,用戶者就可直接即時連接此內容,以減少開關鎖之頻率。AppleInsider指出Apple運用此通知服務,間接地指出允許iPhone手機可持續維持於上網之狀態。   AppleInsider指出Apple運用於iPhone手機介面的通知儀表板,主要複製Apple的Mac OS X儀表板之應用程式功能。 註:AppleInsider網站成立於1997年,為提供Apple相關即時資訊之入口網站。

歐盟執委會(EC)因根據社群網站使用者的政治觀點投放精準廣告,遭歐盟資料保護監督機關(EDPS)訓誡

歐盟資料保護監督機關(European Data Protection Supervisor, EDPS)於2024年12月13日,就歐洲數位權利中心(Noyb - The European Center for Digital Rights,下稱noyb)之申訴做成決定,認定歐盟執委會(European Commission, EC)於社群媒體上依據使用者的政治傾向投放精準廣告,違反歐盟機構資料保護規則(Data Protection Regulation for EU institutions, bodies, offices and agencies, EUDPR),對EC作成訓誡處分。 本案背景事實:EC在2023年9月15日至28日間,於社群網站X上投放了精準廣告,旨在向公眾傳達EC當時正在推動的兒少性剝削防治法(Child Sexual Abuse Regulation, CSAR)草案。該草案本身亦因涉及對數位通訊服務的管制而引發了隱私爭議。EC委託X依照其制定的受眾方針進行廣告投放,該投放方針定義了某些包含和排除關鍵字,和排除了與政治利益相關的帳戶。該政策顯示,包含的關鍵字多與「親歐盟」的立場與情緒相關,包含特定政黨如荷蘭自由民主人民黨(Dutch VVD);而排除的關鍵字則多與「疑歐論」的立場與情緒相關,如Viktor Orban。X並透過關鍵字定位和相似(look-alike)策略,根據關鍵字和與代表資料(proxy data)相比較下顯示出的相似性,篩選成年荷蘭公民進行精準廣告投放。 Noyb認為此類廣告投放操作已經涉及EUDPR第10條第1項的特種個資(政治立場),在同條第2項之許可性條件未獲滿足之情況下,已構成EUDPR第4條第1項(a)的合法性原則的違反。EC則主張其並未利用X使用者的個人資料,也未打算處理特種個資,只是使用X的服務。EC還主張,為了傳達立法草案,並基於EC依歐盟條約(Treaty of EU, TEU)的提案權,其行為也應該被認為是出於EUDPR第5條第1項(a)的公共利益,具備合法基礎。 EDPS經過調查後,認定: 1.EC透過委託投放廣告和制定受眾方針,決定了資料處理的目的(purpose determination),在此範圍內,也應被認為是資料控制者。 2.社群媒體供應商透過比較和關鍵字分析將使用者歸類為具有某些宗教、哲學或政治信仰,亦屬處理了使用者的特種個資。 3.雖然當事人若屬主動公開特種個資,會滿足EUDPR第10條第2項(e)的許可性條件,但依照歐盟法院判決先例,僅點讚某些貼文不當然等於當事人主動公開其這類動態個人活動資料,且即便當事人使用公開帳戶可能滿足許可性條件,該資料之處理仍須具備合法性基礎。 4.TEU中有關提案權之規定本質上非常籠統,難認包含EC的宣傳活動。因此EC進行的資料處理其實並不符合EUDPR第5條所謂的有明確法律依據要求,從而,難認具備執行符合公共利益的任務之合法基礎。 5.最後,雖然EDPS認為EC違反EUDPR,但也同時認為,廣告已經結束,並無罰款的必要,因此僅對EC做成訓誡處分。

美國公布TPP官方版本確認智慧財產權及資料專屬權條款

  美國貿易代表辦公室(the Office of the United States Trade Representative,簡稱USTR)於11月5日公布泛太平洋夥伴協議官方版本,並待各成員國國會同意。其中第18章是有關智慧財產權受到爭議較多。其涉及層面包括商標、地理標示、著作權及相關權利、網路服務提供者、資料專屬保護、專利連結、發明專利、工業設計、智慧財產權執行等等。其重點如下: (1)商標:TPP規定不得以視覺可感知的標識作為申請商標註冊的要件。 (2)地理標示:TPP要求提供適當及公開的程序來保護地理標示。 (3)著作權及相關權利:其中最重要者為將著作、表演或錄音物的著作權保護期間,延長至70年。 (4)網路服務提供者:TPP要求對ISP業者提供法律誘因,免除其可能擔負的共同侵權責任,鼓勵其與著作權人合作,共同遏止網路侵權。 (5)資料專屬保護:TPP要求對農藥或醫藥品提供資料專屬保護,保護期間為新化學性農藥至少10年;新成分新藥至少5年;已知藥品之新適應症、新複方或新投藥方法之臨床資料至少3年;新生物藥品至少8年或5年(併同其他有效保護市場機制)。 (6)專利連結:TPP要求建立專利連結制度。 (7)發明專利制度:其中較為重要者為TPP規定優惠期期間為本國申請案申請日前1年,且不限制公開的行為態樣。對於審查不合理遲延者,應補償其專利期限。 (8)工業設計:TPP要求應提供物品部分設計之保護。 (9)智慧財產權保護的執行:TPP規定法院有權判決敗訴方負擔訴訟及律師費用費用;透過行政、司法及海關等層面採取迅速保全措施等等。

日本發布美國數位政策現狀報告,呼籲推動AI發展的同時,亦應注重資料安全性

日本獨立行政法人情報處理推進機構(下稱IPA)於2025年10月發布美國第二次川普政權數位政策現狀報告(下稱現狀報告),內文聚焦於美國政權輪換後數位政策之變動與解讀,同時提及在推動AI發展的同時,亦應注重其安全性。 日本觀測美國數位政策的現狀報告指出,隨著社會數位化程度日益增加,除了雲端數位資料的累積,以及提升對於AI的依賴程度外,亦會造成釣魚信件難以識別,透過可自動生成程式碼的惡意攻擊型AI進行攻擊行為等AI濫用之風險。 準此,美國為確保AI與資料的安全性,並維持其領域之競爭優勢,於2025年7月23日發布AI行動計畫,並提出三大方針,包括加速AI創新、建構AI基礎設施,以及透過國際性的AI外交與安全保障發揮領導能力。此外,內文亦提及為確保競爭優勢,需要建立作為AI發展基礎的科學資料集,並建置資料中心,同時確保其具備高度安全性,以避免AI使用者輸入AI之資料遭到竄改或外洩。 此外,現狀報告內文提及日本企業Softbank與OnenAI、Oracle等公司共同參與規模達5000億美元的Stargate計畫,並已於德州著手建設AI資料中心,顯示日本在美國的AI基礎建設中扮演重要角色並佔有一席之地。然而,內文亦指出美國數位政策具備不透明性而有潛在風險,須持續留意與關注。 我國企業如欲深耕AI領域,並透過AI進行技術研發,可由建立科學資料集開始著手,以作為訓練AI模型的基礎,以達到運用AI輔助及縮短研發週期、減少研發過程中的試錯成本等效益。此外,為確保安全性,科學資料集建置過程中所需之數位資料,可參考資訊工業策進會科技法律研究所創意智財中心所發布之《重要數位資料治理暨管理制度規範》,建立貫穿數位資料生命週期之資料治理機制。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

TOP