合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/31)
引註此篇文章
你可能還會想看
外掛程式開發公司Bossland GmbH指控暴雪娛樂竊取外掛程式的原始碼

  曾開發「暴雪英霸」、「暗黑破壞神」、「魔獸世界」等多款人氣電玩遊戲的暴雪娛樂公司(Blizzard Entertainment, Inc.)素來對遊戲中的作弊外掛程式採取嚴厲的打擊手段。暴雪娛樂日前對於「暴雪英霸」遊戲中的外掛全自動機器人程式(cheating bot)採取行動,對外掛程式開發公司德商Bossland GmbH的開發者James Enright及數名匿名工程師提出著作權侵權訴訟,並指控其外掛程式讓玩家在遊戲中作弊,影響遊戲的公平性及其他玩家的娛樂,而且損及暴雪娛樂公司的獲益。James Enright最後與暴雪娛樂達成協議,交出外掛程式的原始碼。   隨後,Bossland GmbH公司控訴暴雪娛樂公司偷走他們的原始碼。Bossland GmbH的執行長Zwetan Leschew表示,James Enright所交出外掛程式原始碼的智慧財產權屬於Bossland GmbH公司,James Enright是Bossland GmbH公司的自由程式開發者,暴雪娛樂公司已經於德國參與了數個對自動機器人程式開發者的訴訟,對於James Enright與Bossland GmbH之間的關係應有所了解。從暴雪娛樂公司和James Enright的協議可以看出,暴雪娛樂公司要求James Enright將程式原始碼交出,以換取訴訟的停止。   暴雪娛樂公司發布聲明表示,暴雪娛樂已在德國贏得了多起與Bossland GmbH公司的訴訟,儘管他們利用策略手段來拖延正在進行的訴訟程序,仍堅信法院制度會繼續證實我們的主張,而且最終會阻止作弊全自動機器人程式的散布。

澳洲國家交通委員會發布管制政府近用C-ITS和自駕車資料政策文件,提出政府近用自駕車蒐集資料規範原則

  2019年8月12日澳洲國家交通委員會(NTC)提出「管制政府近用C-ITS和自駕車資料(Regulating government access to C-ITS and automated vehicle data)」政策文件,探討政府使用C-ITS與自駕車資料(以下簡稱資料)所可能產生的隱私議題,並提出法律規範與標準設計原則應如下: 應平衡政府近用資料與隱私保護措施,以合理限制蒐集、使用及揭露資料。 應與現行以及新興國內外隱私與資料近用框架一致,並應進行告知。 應將資料近用權利與隱私保障納入立法中。 應以包容性與科技中立用語定義資料。 應使政府管理資料措施與現行個資保護目的協調一致。 應具體指明資料涵蓋內容、使用目的與限制使用對象,並減少資料被執法單位或經法院授權取得之阻礙。 應使用易懂之語言知會使用者關於政府蒐集、使用與揭露以及資料的重要性。 認知到告知同意是重要的,但同時應提供政府於取得同意不可行時,平衡個人隱私期待之各種可能途徑。 認知到不可逆的去識別化資料在許多情況下的困難度。 支持資料安全保護。 定期檢查資料隱私保護狀態與措施。   以上這些原則將會引導NTC發展自駕車資料規範與國家智慧運輸系統框架,NTC並將於2019年內提出更進一步規劃相關工作之範疇與時間點。

日本與大陸簽署專利審查高速公路試行方案(Patent Prosecution Highway pilot program)

  日本特許廳(JPO)和中國人民共和國國家知識產權局(SIPO)於2011年10月18日合意簽署專利審查高速公路(Patent Prosecution Highway,PPH)試行方案。本方案欲藉由資源共享的方式,加快專利申請程序的官方審查期間。並預計於11月初開始施行,試行期間為期一年。透過這個方案,將使日本成為中國第一個PPH方案的合作對象。   隨著商業活動的全球性擴展,企業在各國獲取專利的需求性亦相對性地提升,造成單一申請案需個別向各國專利局申請的情況。因而造就全球性專利申請案件數量的攀升,以及專利審查期間的延長。為解決此問題,日本特許廳企圖以推行PPH模式,幫助申請人有效且及即時地獲取專利,以保障其國外專利權的行使。   傳統上大陸知識產權局審理日本專利申請案,通常需要經過二至三年的審查期間,透過這個試行方案,審查期間可望縮減至半年。   日本特許廳預計,這個方案將使日本企業以更迅速且有效的方式,保護其在中國的技術,進而協助日本企業順利地在中國經營商業活動。日本特許廳廳長表示,國際專利合作案不應該是種妥協,相反地,我們需要尋求一種可創造雙贏局面的新方式。   至於大陸方面,則預計與其他國家,如美國及南韓,簽署建立PPH的合作方案。

G20財長會議就跨國企業利潤再分配及全球最低稅賦制批准最終協議

  2021年10月13日G20第4次財長會議正式批准了數位經濟課稅最終政策協議,確立了136個國家和司法管轄區,應於2023年底前實施跨國企業利潤再分配制及全球最低稅賦制的改革計畫。   有關跨國企業利潤再分配制,以跨國公司平均收入達200億歐元且高於10%利潤率的量化特徵,打破了過往國際稅法以業務型態為依據的課稅權分配基礎。根據協議公報,200億歐元的課稅門檻將在未來8年內下修至100億歐元,以逐步實現公平的數位經濟課稅環境;至於跨國企業母國所在地、子公司所在地之分配比例,將於2022年初公布。   新的全球最低稅賦制,係以全球(相對於境內)為課稅範圍設定15%的標準稅率,針對年收入達7.5億歐元之跨國公司,衡量所在地國之有效稅率與標準稅率,補足稅率之差額以打擊跨國租稅套利。根據協議公報,制度預設8%有形資產與10%工資的扣除額,將於10年內逐步調降,以符合數位經濟低邊際成本的特性;至於有效稅率的計算,預計將於2021年11月公布。   此次最終政策協議的批准,不僅是取得愛爾蘭等原先反對國家的共識,同時確立了新制度計算公式與配套措施的提出時程,顯示出疫情後數位經濟課稅的急迫性再度受到重視。而我國雖積極發展數位經濟,然因目前尚未透過多邊協定框架加入改革計畫,因此在此數位經濟課稅方案確定前,我國如何接軌和因應國際制度將是重要課題。

TOP