合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/03/24)
引註此篇文章
你可能還會想看
中國大陸公布專利法修正草案對外徵詢意見

  中國大陸國家知識產權局於2015年4月1日,公佈第四次《中華人民共和國專利法修改草案(徵求意見稿)》,其中涉及實質性修改條文共30條,包括修改現有條文18條、新增11條、刪除1條,並增加「專利的實施和運用」章。   具體修改重要內容包括:   一、強化外觀設計保護:1、產品局部外觀設計納入專利法保護範圍。2、增加外觀設計專利國內優先權制度。3、將外觀設計專利權之保護期限由10年延長到15年。4、鑒於實用新型和外觀設計專利權的授予沒有經過實質審查,具有不穩定性,草案增訂「專利權評價報告」作為侵權糾紛審理和處理過程中必須提交的「證據」,當事人無正當理由不提交,需自行承擔訴訟上不利後果。   二、提升發明人地位:1、草案規定「利用本單位物質技術條件完成的發明創造」,權利歸屬優先適用約定原則,若未約定時,申請專利權利歸屬於發明人或設計人。2、為解決國家設立之研究機構、高等院校專利技術移轉率低問題,允許發明人或設計人在單位怠於實施發明情形下,可與單位協商自行實施或者授權他人實施該專利,並按照協議享有相應權益,藉以激勵發明人積極進行技轉實施。   本次意見徵集時間已於4月28日截止,上述強化外觀設計保護及發明人地位作法,得否順利通過,有待後續持續追蹤。

AT&T 控告資料掮客非法竊取客戶通話紀錄

  AT&T 在 8 月 24 日 控告 25 個販賣資料的掮客( data broker ),在其訴狀中指出大約有 2500 個客戶的個人紀錄被非法竊取, AT & T 已通知相關客戶已被通知並凍結其帳戶。   AT&T 並未於訴狀中明確地列出被告的名字,表示目前必須利用電腦郵件以及電腦 IP 位址來確認被告為哪些人, AT&T 宣稱一旦這些資料掮客經鑑定被確認後,除了賠償 AT&T 的損害之外,還須償還其販賣資料所獲得的不法利益。   PrivacyToday.com 網站的總裁表示,「買資料的人無處不在,但只有少數的人會非法竊取客戶資料,而這少部分的人大多都可以被追蹤的到。」   這並非唯一的案例,未來將會有越來越多相似的問題產生。被竊取的資料不僅僅只有電話紀錄,還有銀行、醫療或其他個人敏感資料,每分每秒都有人在想著如何取到私密資料並從中獲得不法利益。目前州及聯邦已經考慮立法,將有關電話紀錄的欺騙行為判定為不法行為。

歐盟在考量營業秘密對企業重要性下,通過兼顧重要資料保護的資料法法案,以推動資料經濟發展

歐盟理事會於2023年11月27日批准通過資料法法案(Data Act),該法案雖預計於2025年才會生效,該草案自2022年公告以來,各界對該法案都紛紛從不同角度表示意見,如企業對於資料共享是否對營業秘密外流的風險表達擔憂,歐盟在發揮資料經濟價值(資料交易與資料使用)的方向下,將業界考量納入進行修改,以下就經理事會通過之資料法法案關鍵影響概要如下: 1、資料共享 有鑑於因網路裝置/服務所產出的數位資料往往掌握於產品製造商或服務提供商身上,資料法建立了資料共享的基本規則,確保數位資料由製造商/服務商流動至第三人(包含產品/服務使用者),另資料法所保護之資料包含使用AI所產生之資料。 2、營業秘密保護 為避免資料持有人的營業秘密因此外流,資料持有人可以與請求提供資料的第三人(資料請求者)協議應採取之保密措施,在保密措施未達成一致或使用者未實施保密措施,資料持有人可暫停資料共享,在有重大經濟損失之虞時甚可拒絕資料共享。 3、對資料持有者的限制 資料持有者僅能在與使用者約定之範圍內使用資料,在無使用者許可下,不得用使用者所產出之資料去回推使用者的經濟、資產或生產等資訊,以避免損及使用者的商業地位。 資料法法案的主要目標在於塑造具競爭性的資料市場生態,確保資料的價值可公平分配到不同參與者身上,其聚焦在非個人資料的數位資料上,除適用於對歐盟提供產品/服務之廠商外,亦包含可於歐盟境內取得資料之情況。國內廠商宜先檢視自身商業行為與歐盟之關聯性,盤點現有產品或服務所產出的資料屬性,如可能需特別約定保密措施之營業秘密,預先規劃資料管理機制與對應管制措施,就重要資料或營業秘密管理機制可參資策會科法所公布之《重要數位資料治理暨管理制度規範(EDGS)》、《營業秘密保護管理規範》。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

歐盟擬大幅調降文字簡訊傳輸費用

  歐盟執委會電信委員Viviane Reding提出一項擴大手機漫遊簡訊計畫(cross-border text messages plans),主要內容系將目前平均一通49美分的漫遊文字簡訊傳輸調降70%以下。在確定這項政策可以獲得歐盟民意的支持後,新的正式立法計畫將在2008年秋天完成,經過歐盟政府與歐盟議會同意後,預計於2009年的夏天實施這項新政策。     雖然丹麥建議以4.2美分作為零售文字漫遊簡訊的價格上限,但是在徵詢各方意見後,電信委員會最後仍然決定以12美分做為文字漫遊簡訊的價格上限。除此之外,依據電信委員會的消息指出,文字漫遊簡訊的批發價上限也將可能調降在4到8美分之間。     有業者表示,歐盟電信委員會增加對於電信費率的價格管制,將會降低業者研發新服務的意願。但是,歐盟電信委員會認為業者的主張,並不能構成文字簡訊費率上限政策施行的阻礙。     由於文字簡訊的市場已經成熟,業者在此項服務的獲利上已相當穩定,因此透過合理的價格上限,可以讓消費者有更符成本的漫遊文字簡訊服務,同時業者也能持續在此項服務上獲利。但是反觀資料傳輸尚處於萌芽階段,因此電信管制者與系統業者皆認為目前就漫遊的資料傳輸進行價格上限管制尚不適宜。     另外,Reding於2007年曾提議對於歐洲漫遊語音通話的價格進行上限管制,此項電信費率政策受到習慣於暑假進行跨國旅遊的歐盟居民的歡迎,Reding表示此項於2009年到期的政策極可能再延長三年至2012年。

TOP