合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=55&tp=1&d=8532 (最後瀏覽日:2024/07/27)
引註此篇文章
你可能還會想看
「聯合國2017年年度隱私報告聚焦政府監督行為」

  聯合國人權理事會(Human Rights Council)於2016年3月8日依據28/16號「數位時代下之隱私權」(Right to Privacy in the Digital Age)決議,設立隱私特別報告員(Special Rapporteur on Privacy, SRP),專責調查各國隱私保護情形並每年定期向人權理事會和聯合國大會提交隱私報告(Report of the Sepcial Rapporteur on the right to privacy)。   2017年年度隱私報告(A/HRC/34/60)於2月24日提出,報告除延續第一年報告中所列出的五大隱私優先課題 (跨國界隱私認知、安全與監督、巨量資料與開放資料、健康資料、企業擔任資料管理者議題等),主題聚焦於「情報蒐集」行為的監督,將政府監督行為歸類為十項: 基於使用國際化、標準化的術語和語言而有監督必要; 基於了解國家體系、體系比較之監督必要,以秘密(secretive)或公開形式進行; 促進、保護基本人權之相關措施; 保障與救濟措施(隱私特別報告員建議採國際性層次); 責任與透明度; 為蒐集、討論實務實踐狀況; 對政府監督行為之進一步討論; 尋求與公民溝通管道; 基於放寬安全部門、執法機關秘密性監督之必要; 基於對政府監督議題之公共論壇需求。   期中報告對現階段政府監督行為以隱私友善(privacy-friendly)立場出發,總結後續推動方向如下: 為何民粹主義(polulism)、隱私兩議題與安全議題會產生衝突; 國家如何透過監督情報增進隱私保護; 誰有權主張隱私權,隱私權的普世性(universality)於政府監督行為具特別意義; 隱私權如何透過內國法、國際法的推動而更加落實; 透過更廣泛討論,關於監督的法律文件及相關國際法規範可期待成熟發展。

間隙網路社會之推動-以歐盟資通訊法制政策之發展為例

德國首例因Twitter超連結的裁定出爐

  根據德國法蘭克福地方法院日前於4月20日的一則假處分裁定(Beschluss vom 20.04.2010, Az. 3-08 O 46/10),禁止被告以超連結方式,讓點取該鏈結的人,得以連結到刊登有損害原告商業信譽的文章頁面。   本件事實起源於一名匿名的網友在不同的網路論壇中,發表刊登有侵害原告商業信譽的言論,而曾經與原告有商業上往來的被告,利用自己Twiiter帳戶,發表超連結,並在鏈結網址下加上「十分有趣」的文字,讓看到該訊息的朋友,都可以點選鏈結連接到這些不利於原告商業信譽的文章、言論。原告因而向法院申請假處分裁定,禁止被告以超連結方式繼續為有損原告商業信譽的行為。 法蘭克福地方法院的這起裁定,被視為是德國國內第一起法院對Twitter等社群網站的警告,德國輿論各界也普遍認為,法院透過裁定對外明白宣示社群網站使用者往往誤認網路社群空間為「半私人場域(須加入好友才得以分享資訊、留言等)」,在自己的帳戶上發表心得、感想、分享文章等行為,還是有構成侵權責任的可能性。   該裁定出爐後,德國各界則開始討論被告設定超連結的行為是否構成網路侵權責任,持贊成意見者認為,即使該違法言論非被告本人所發表,被告設定超連結的行為,也讓自己與該違法言論「合而為一(zueigen gemacht)」,也就是,讓外界以為該違法言論就是被告本人所撰寫刊登;根據德國電信服務法(Telemediengesetz, TMG)第7條規定,內容提供者須為「自己」的言論負擔法律責任。   反對者則拿其他超連結的案例舉出,法院認定被告是否構成網路內容提供者的侵權責任,通常會檢視被告對於該違法言論的內容是否知悉、被告是否違背其檢查監督義務(Überprüfungspflicht),例如被告須為一定行為藉以與原撰文者劃清界線等。但因各該檢驗標準都係由法院依據個案加以認定,讓人無所適從,產生網路侵權行為的判斷標準過於浮動之疑慮,德國國會也因此著手進行電信服務法的修法。

美國確立2305-2360MHz區間行動寬頻服務發展規範

  自2001年以來,美國長期無法解決2305-2360MHz頻段上,相鄰之衛星數位音訊廣播服務(Satellite Digital Audio Radio Service, SDARS)業者與無線通訊服務(Wireless Communications Service,WCS)業者雙方相互干擾之疑慮。此一爭議在2012年10月17日美國聯邦通訊委員會(FCC)發布FCC 12-130再審查命令(Order on Reconsideration FCC 12-130,下稱12-130命令)後獲得解決。   使用頻段位於2305-2320MHz與2345-2360MHz之無線通訊服務(WCS)與位於2320-2345MHz頻段的衛星數位音訊廣播服務(SDARS)由於個別之訊號傳輸技術差異大,並且長久以來無法在干擾處理的議題上達成共識,而抑制了無線通訊服務(WCS)於該頻譜上之發展。為實現WCS業者得於該頻段發展行動寬頻業務之承諾,並確保美國大眾能繼續享有高品質的衛星廣播服務,FCC本次針對2010年所頒布之命令(FCC10-82)進行再次修訂與檢討 ,以確立位於2.3GHz頻帶WCS所屬之頻段得發展新興寬頻服務,並促進SDARS地面中繼起器(terrestrial repeaters)之佈署及運作更加彈性化。   12-130命令之頒布,可視為WCS頻帶發展的重要里程碑。該命令除了確保相鄰頻帶之衛星廣播服務(satellite radio)、航空行動遙測技術(aeronautical mobile telemetry)以及位於美國加州所佈署之深空網路(deep space network)地面站其訊號不受干擾以外,FCC更透過制訂各項參數與管理規則,一方面降低WCS營運時對於SDARS接收者可能產生的潛在干擾,另一方面則幫助位於2.3GHz的WCS業者有能力提供固定或行動寬頻服務,以促進WCS業者與SDARS業者和諧共存。   對於FCC最後決定採用修改管制規範方式釋出該頻段以發展行動寬頻服務之舉,FCC主席Genachowski表示,除有助於鞏固美國身為全球發展LTE技術領導者之地位外,更認為命令中的管制障礙排除模式可幫助未來其他頻段的清理或移頻,增加頻譜使用彈性,並有助於達成國家寬頻計畫(National Broadband Plan’s)所設定之「2015年釋出300MHz總頻寬」、「2020年釋出500MHz總頻寬」目標。

TOP