合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=67&tp=5 (最後瀏覽日:2024/11/22)
引註此篇文章
你可能還會想看
歐盟議會發布《可信賴人工智慧倫理準則》

  2019年4月9日,歐盟議會發布《可信賴人工智慧倫理準則》(Ethics Guidelines for Trustworthy AI)。此次內容大致延續歐盟人工智慧高階專家小組(High-level Expert Group on Artificial Intelligence)於2018年12月18日發布的《可信賴人工智慧倫理準則草案》(Draft Ethics Guidelines for Trustworthy Artificial Intelligence)之內容,要求人工智慧須遵守行善(do good)、不作惡(do no harm)、保護人類(preserve human Agency)、公平(be fair)與公開透明(operate transparency)等倫理原則;並在4月9日發布的正式內容中更加具體描述可信賴的人工智慧的具體要件,共計七面向概述如下: 人類自主性和監控(Human agency and oversight):AI係為強化人類能力而存在,使人類使用者能夠做出更明智的決策並培養自身的基礎能力。同時,AI應有相關監控機制以確保AI系統不會侵害人類自主性或是引發其他負面效果。本準則建議,監控機制應可透過人機混合(一種整合人工智慧與人類協作的系統,例如human-in-the-loop, human-on-the-loop, and human-in-command)的操作方法來實現。 技術穩健性和安全性(Technical Robustness and safety):為防止損害擴張與確保損害最小化,AI系統除需具備準確性、可靠性和可重複性等技術特質,同時也需在出現問題前訂定完善的備援計劃。 隱私和資料治理(Privacy and data governance):除了確保充分尊重隱私和資料保護之外,還必須確保適當的資料治理機制,同時考慮到資料的品質和完整性,並確保合法近用資料為可行。 透明度(Transparency):資料、系統和AI的商業模型應該是透明的。可追溯性機制(Traceability mechanisms)有助於實現這一目標。此外,應以利害關係人能夠理解的方式解釋AI系統的邏輯及運作模式。人類參與者和使用者需要意識到他們正在與AI系統進行互動,並且必須了解AI系統的功能和限制。 保持多樣性、不歧視和公平(Diversity, non-discrimination and fairness):AI不公平的偏見可能會加劇對弱勢群體的偏見和歧視,導致邊緣化現象更為嚴重。為避免此種情況,AI系統應該設計為所有人皆可以近用,達成使用者多樣性的目標。 社會和環境福祉(Societal and environmental well-being):AI應該使包含我們的後代在內的所有人類受益。因此AI必須兼顧永續發展、環境友善,並能提供正向的社會影響。  問責制(Accountability):應建立機制以妥當處理AI所導致的結果的責任歸屬,演算法的可審計性(Auditability)為關鍵。此外,應確保補救措施為無障礙設計。

法國通過具爭議性的iTune法

  法國眾議院與參議院於 2006 年 06 月 30 日 通過倍受爭議的 iTune 法,其主要理念在闡述著作權法的設計應該要防止將音樂著作消費者侷限在僅能利用特定設備聽取音樂的藩籬中,而目前 iTunes 提供的音樂格式僅可利用 iPod 設備播放,明顯違反此一理念。   眾議院原先通過之條文要求歌曲必須可以在任何設備上播放,但此一規範受到蘋果公司反對,認為如此規定將降低音樂檔案的安全性,而造成「鼓勵盜版」的結果。參議院為此修改規範內容,於規定中設計小部分空間賦予廠商可以運用 DRM 技術限制音樂於特定設備播放之音調;且若廠商獲得著作權人 ( 唱片公司及著作人 ) 之同意,仍得限制特定音樂格式僅得於特定設備中播放 ( 如: iTunes 的情況 ) 。   社會主義與綠黨之國會議員目前正針對此一規範提出違憲主張,若該主張無法成立,法國將成為歐洲訂定此一規範之先驅,預料其他歐洲國家將可能跟隨法國之腳步進行規範,如此情勢可以從挪威消費者保護官晚近作出之決議,認為 DRM 技術已破壞競爭法則,必須加以修正,以及其他國家包括丹麥、瑞典之類似決議窺知一二。

促進公有文化創意資產的加值利用-以文化創意產業發展法規定為例

微軟向美國專利商標局(USPTO)提出可用以追蹤物體的擴增實境(AR)專利申請

  依據12月USPTO公開資訊,微軟(Microsoft)於2016年9月2號提出擴增實境(Augmented Reality,以下簡稱AR)系統之美國發明專利申請(申請號:20160373570)。目前AR系統不僅可投射虛擬訊息,還可偵測物理空間之物體位置,不過因為現實生活中,不管是有生命或無生命物體,都不太可能處於完全靜態不動的狀況;而微軟此技術之開發,除了不限於固定空間外,對移動中的物體更具有自動追蹤效果。   微軟專利指出該系統能辨識無生命物體,並可將該物體被選擇為追蹤對象的技術,這個AR系統可持續監測物體的狀態,不僅在同一空間中不同時間點,甚至是物體離開監控空間又被帶回的情況都可追蹤。從微軟專利可以看到這項技術運用在日常生活的價值,如:我們常常花很多時間在想汽車鑰匙和錢包放在哪裡,但透過這個系統的追蹤,可以節省我們找尋的時間;有時我們會忘記家裡的牛奶還剩多少,而花時間去逛超商,倘若我們運用此追蹤技術,能夠隨時知道牛奶剩餘的狀態,就可以避免這種情況的發生。   上開技術不僅包含AR技術,還有虛擬實境(Virtual Reality,簡稱VR)技術,這些技術能透過虛擬與真實世界合併,將真實世界、人類、空間和物體結合,並可進一步的智慧化追蹤,若這項專利被核准且可真實運用到現實生活,必能減少我們的生活中不必要的麻煩。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

TOP