合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/28)
引註此篇文章
你可能還會想看
新加坡修訂「建築物資通訊設施實施條例」

人工智慧即服務(AI as a Service, AIaaS)

  人工智慧即服務(AIaaS)之定義為由第三方提供人工智慧(AI)外包服務,其可使個人和公司基於各種目的進行AI相關實驗,同時毋須於初期即大規模投資或承受高度風險。著名之四大AIaaS供應商為Amazon AWS雲端運算服務、Microsoft Azure 雲端運算平台與服務、Google雲服務、以及IBM雲服務。   AIaaS之優點主要有:(1)降低成本:一般公司無須投資軟體、硬體、人員、維護成本以及不同任務之修改成本,AIaaS供應商可供應不同之硬體或機器學習供公司嘗試運用。(2)即用性:AIaaS供應商提供之AI服務為即用性,無須太多專家介入修改即可使用。(3)可擴展性:可由較小之項目開始試驗,逐步擴張調整服務,因此具有戰略靈活性。然而,AIaaS亦有以下潛在缺點:(1)降低安全性:公司必須交付大量資料給AIaaS供應商,因此資料之機密保護與預防竄改即為重要。(2)增加依賴度:若發生問題時,必須等待AIaaS供應商進行處理。(3)降低透明度:由於是即用性之AI服務,對於內部演算法之運作則屬於未知之黑盒子領域。(4)限制創新:因AIaaS供應商所供應之AI服務需一定程度之標準化,因此限制公司創新發展之可能。

美國眾議院通過新法案-《CASE法》

  美國眾議院在2019年9月10日,通過了一項法案,該法案將建立一個類似法庭的機構,處理小額著作權爭議,為著作權侵權訴訟提供一種低成本的替代方法,這個法案稱之為《CASE法》(the CASE Act),又名Copyright Alternative in Small-Claims Enforcement Act。   《CASE法》將在美國著作權局內設立一個準司法機構,稱為著作權賠償委員會,此委員會並不在政府的司法部門下運作,每件侵權作品最高可獲得之賠償金額為三萬美元。在以往的著作權訴訟中,平均訴訟成本為27.8萬美元,這意味著許多獨立創作者不會真正進行訴訟,因為他們的作品還沒有那麼值錢,此項法案通過將有助於獨立創作者保護自己的權利。   有關《CASE法》之主要內容,其主要包含以下幾項: 對於當事人進行定義,並對賠償委員會組成員之成員進行規範,例如委員會的審查委員應是具備七年以上執業經驗之律師或者在著作權侵權訴訟方面有豐富的經驗。 對委員會職責與權限加以規定,例如,促進雙方調解成立、不得擔任與委員會職責相牴觸之任何職務。 對程序的進行有所規範,例如,得在訴訟中自願參加著作權賠償委員會之程序。程序的開始,為雙方當事人自願參加,而非課予當事人到庭之義務,強迫進入訴訟程序。 對調解程序相關行為進行規範,例如當事人之代表人可以是自己、律師,或是無償提供幫助之法學院學生。 規範調解做成之效果,例如,賠償委員會不能排除訴訟、不能反訴、不能下最終判斷,以及賠償委員會的任何決定,不得作為法律判決先例被引用等。   這項法案得到眾多藝術家和音樂發行人的支持,但受到一些消費權益團體反對,包括電子疆界基金會和公共知識組織(the Electronic Frontier Foundation and Public Knowledge),他們認為這項法案最大的缺點就是,缺乏結構性的保障以對抗濫用。這項法案對於被指控侵權的人幾乎沒有保護,更可能使不肖之徒有機可乘,隨意濫行訴訟以尋求更高額的和解金;加諸委員會並非司法部門,由委員會進行裁決,有憲法上疑慮,這都是需要詳加斟酌考慮。

歐盟宣部推動「展望2020」計劃

  歐盟在2013年12月3號正式通過「展望2020」(Horizon 2020)計劃,將在未來7年(2014-2020)之間,在10大領域投入770億歐元發展「尖端科學」(Excellent science)、「領導性工業」(Industrial leadership)與「社會挑戰」(Societal challenges)三大項目,以此承繼歐盟第七期科技研發計畫架構(7th research Framework Programme,FP7)所建立的基石。目前,歐盟在三大項目中,在今(2014)年發展項目分別是: 1.「尖端科學」:歐洲理事會將編列30億歐元,資助頂尖的科學家從事相關研究。此外,歐盟亦將透過獎學金的方式,鼓勵優秀的年輕研究者。 2. 「領導性工業」:透過18億的預算資助歐盟在產業領先的項目,包括是通訊技術、奈密、機器人等產業。 3.「社會挑戰」:歐盟將透過28億元解決2020年可能遇到的七個社會挑戰,例如是衛生、農業、海洋、生物科技、能源、交通、氣候行動、環境、與資源利用等領域。   在各大項目當中,因資通訊(ICT)產業占整體經濟4.8%外、且資通訊的研發設計(Research and Development) 又佔企業整體營收約25%。因此,促使歐盟在「展望2020」在ICT領域發展預算編列,高於歐盟FP746%,藉此加速資通訊技術、知識之革新與發展。至於,今(2014)年ICT在「領導性工業」發展項目中,將朝向以下6點發展: 1.下世代零組件與系統(A new generation of components and system)。 2.先進的計算(Advanced Computing)。 3.未來網際網路(Future Internet) 4.內容技術與資訊管理(Content technologies and information management)。 5.機器人(Robotics) 6.微型、奈米科技、與光電(Micro- and nano-electronic technologies, Photonics)。   綜觀上述六點,除了機器人、微型、奈米科技之新穎性,格外受人注目外,在「未來網際網路」與「內容技術與資訊管理」,亦須值得持續追蹤。在「未來的網際網路」發展上,歐盟將「智慧網路與新穎網路體系」(Smart Networks and novel Internet Architectures)、「先近雲端基礎建設與服務」(Advanced Cloud Infrastructures and Services )與「智慧光學與無線網路技術」(Smart optical and wireless network technologies)列為發展方向。   在「內容技術與資訊管理」上,巨量資料的研究(Big data-research)與創新與社群行銷的整合(Big data Innovation and take-up),則是歐盟未來1年發展項目之一。我國從2010年推動「數位匯流發展方案」(2010-2015年),其中如何促進新興媒體的發展與增加網路間競爭,一直為我國發展重點。因此,我國除了可透過歐盟所推動的「展望2020」為參考,從中思索是否具有政策盲點外,亦可成為2015年後科技政策進行先導計畫。

TOP