合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/10)
引註此篇文章
你可能還會想看
歐盟新一代關鍵資訊基礎設施保護計畫

  2011年3月31日,歐盟執委會啟用新一代的關鍵資訊基礎設施保護計畫(Critical Information Infrastructure Protection, CIIP)。上一代的關鍵資訊基礎設施保護計畫在2009年公布並已取得一定的成果。新一代的計畫集中在全球化的挑戰,著重在歐盟成員國與全球其他國家的合作,與相互之間的合作關係。   為了達成這個目標,歐盟執委會訂定以下的行動綱要: (1)準備和預防:利用成員國論壇(European Forum for Member States, EFMS)分享資訊及政策。 (2)偵測和反應:發展資訊分享及警示系統,建置民眾、中小型企業與政府部門間的資訊分享、警示系統。 (3)緩和及復原:發展成員國間緊急應變計畫,組織反應大規模網路安全事件,強化各國電腦緊急反應團隊的合作。 (4)國際與歐盟的合作:根據歐盟成員國論壇所制訂的,歐洲網際網路信賴穩定指導原則和方針,進行全球大規模網路安全事故的演習。 (5)制訂資訊通信技術的標準:針對關鍵資訊基礎設施制訂技術標準。   另外,在2011年4月14-15日舉行的關鍵資訊基礎設施保護電信部長級會議(Telecom ministerial conference on CIIP),整個會議針對歐盟成員國、私人企業、產業界及其他國家進行策略性的對話,強化彼此在數位環境中的合作與信任關係。並針對新一代的關鍵資訊基礎設施保護計畫,向歐盟執委會提出相關政策建言。   受全球化、資訊化發展的影響,以及各國間互賴程度的增加,使得影響關鍵資訊基礎設施(CIIP)安全的問題,不再侷限於單一區域,更需要各方多元的合作。

英國建置著作數位著作授權平台(Copyright Hub),為數位時代增添授權管道

  英國智慧局於今 (2013) 年3月底時宣布投入15萬英鎊(約683萬元台幣)啟動一項名為「數位著作授權平台」(Copyright Hub)的建置計畫,並於今年7月正式上線,提供權利人、利用人、以及市場等關於著作權的授權相關事宜。   根據該平台籌設小組所提出的營運方針 ,初步觀察該平台的定位與功能可歸納出三項特點: 一、平台定位為連結利用端與權利端之入口門戶(Portal)   該匯集平台的定位為連結(connect)利用端與權利端的入口門戶,屬於一種著作權資訊匯集中心;只要涉及與著作權相關的內容作品,都可以加入此平台,不限於數位形式的內容作品,該平台並非要取代現有的市場機制,而係在促進現有的集體管理團體、作品登錄單位(Registry)以及跨領域之間有關著作權之交流。 二、平台的主要功能在於媒合權利端與利用端   平台主要提供的服務內容為協助利用端找尋合適的內容以及權利資訊,降低其在海量的數位世界裡搜尋的成本。即平台作為第三方的媒合者,協助兩端進行相關授權事務,利用人可透過該平台向權利人提出授權申請,或是由權利人向不特定或潛在的利用者提出授權的邀約。另外,透過平台的資訊彙整機制,也可降低授權的爭議,例如專屬授權的重疊,以及授權範圍的疑義等等。 三、平台透過數位權利管理資訊系統搭配管理碼達成目的   目前數位作品(Copyright Management System)已蔚為趨勢,因此該平台希望藉由多媒體識別網絡(Multimedia Identifier Network),在每一個數位作品加入一個管理碼,用以管理作品的權利資訊(包括授權內容等訊息)。此外,平台未來也會建立識別不同國際標準碼的機制,讓使用不同國際標準碼之作品在此平台上都能夠互相轉換或辨識。   目前數位著作授權平台(2013年七月初)已經成立,不難發現英國政府的企圖心,欲透過此一平台媒介進一步將英國的音樂、圖像、影音透網絡推廣到世界。從文化層面來說,係希冀透過該媒介再傳遞或散布英倫三島的文化,進而透過間接或直接產生經濟上的價值反饋。我國向來蓬勃發展的音樂產業、出版產業、以及近來興起的影音產業,在華語世界或是亞洲等,競爭力不亞於其他國家,甚至近來流行文化已經深入擴散到鄰近國家當中,我們如何透過科技媒介整合文創產業,進而增加經濟上的產值,英國政府的此種思維脈絡足堪借鏡。

金融科技(Fintech)專利戰局:那斯達克申請備份交易紀錄之區塊鍊專利

     近年來,大型銀行及信用卡公司爭相為其核心技術及在創新上的投資尋求專利保護。從2013年截至今日,數個大型金融機構在美國已至少申請近2700項專利,這些專利涵蓋目前最火紅的領域,包含:區塊鍊、分析以及資訊安全等。金融領域的專利申請量相較前三年已達到約百分之八十三的驚人成長。   全球最大的證券交易所之一那斯達克(NASDAQ)近年來亦投入區塊鍊技術的研發及應用。去年(2015)起,那斯達克便以區塊鍊技術搭建了私募股權的智能平台Linq,今年(2016)更提出了利用區塊鍊技術備份交易紀錄以保證交易安全的專利申請。   今年十月六日,美國專利商標局(United States Patent and Trademark Office,簡稱USPTO)公布一項新的專利申請「區塊鏈交易紀錄之系統與方法」(Systems and methods of blockchain transaction recordation)。這個專利在今年三月三十一日提出,發明人為那斯達克的企業結構資深副總裁Tom Fay,及企業結構協理副總裁Dominick Paniscotti。   具體而言,這個專利是由:一個電子錢包、一個委託簿(order book),以及配對引擎所組成。該配對引擎包含一項用來紀錄、且能夠及時更新交易紀錄的「封閉區塊鍊」。 該專利申請詳細介紹了這項技術:在這個系統中,當數據交易請求間之配對被辨認出來後,系統就會生成電子錢包及相應數據交易請求的hash值。當交易的一方收到另一方的hash值與相應資訊,各交易方的交易就會被增加至區塊鍊計算系統的區塊鍊上。在這個系統下,交易所查核區塊鍊的內容,尋找與這些電子錢包相關的數據。此外,這些數據資料會被額外備份於獨立的資料庫。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)

美國聯邦法院裁定執法部門無搜索令要求提供手機位置記錄並未違憲

  美國聯邦第六巡迴上訴法院於2016年4月13日就U.S. v. Timothy Ivory Carpenter & Timothy Michael Sanders案作出判決,裁定執法機關在未取得搜索令的情況下要求出示或取得手機位置記錄,並不違反憲法增修條文第4條。美國憲法增修條文第4條規定:「人人具有保障人身、住所、文件及財物的安全,不受無理之搜索和拘捕的權利;此項權利,不得侵犯;除非有可成立的理由,加上宣誓或誓願保證,並具體指明必須搜索的地點,必須拘捕的人,或必須扣押的物品,否則一概不得頒發搜索令。」   本案事實係聯邦調查局取得兩名涉及多起搶劫案之嫌疑人的手機位置,而根據手機位置之相關資料顯示,於相關搶案發生之時間前後,該二名嫌疑人均位於事發地半英哩至兩英哩的範圍內,故該二名嫌疑人隨後被控多項罪名。在肯認與個人通訊相關之隱私法益的重要性的同時,聯邦第六巡迴上訴法院認為,「縱使個人通訊之內容落於私領域,但是為了將該些通訊內容自A地至B地所必須之資訊,則非屬私領域之範疇。」聯邦第六巡迴上訴法院拒絕將憲法增修條文第4條的保護延伸至像是個人通訊或IP位址等之後設資料(metadata),其原因在於,蒐集此等資訊或記錄並不會揭露通訊的內容,因此本案之嫌疑人就聯邦調查局所取得之資訊並無隱私權之期待。法院認定,此等行為不同於自智慧型手機取得資訊,因為後者「通常而言儲存了大量有關於特定使用人之資訊。」   2015年11月9日,美國聯邦最高法院拒絕審理Davis v. United States案,該案係爭執搜索令於執法部門要求近用手機位置資料時之必要性。加州州長Jerry Brown於2015年10月亦簽署加州電子通訊法(California Electronic Communications Act, CECA),該法禁止任何州政府的執法機關或其他調查單位,在未出示搜索令的情況下,要求個人或公司提供具敏感性之後設資料。

TOP