合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/03/05)
引註此篇文章
你可能還會想看
YouTube網站被控侵害著作權

  美國新聞記者兼直昇機飛行員 羅伯特爾( Robert Tur )於 7 月 14 日 控告近來迅速竄紅的影片分享網站 YouTube 侵害著作權,特爾指稱 YouTube 網站鼓勵用戶拷貝受到保護的影片資料,此舉違反了 2005 年一項美國最高法院的判決( MGM v. Grokster ) ,該判決認為 P2P 軟體業者若蓄意鼓勵或誘使客戶從事線上盜版行為,即可能構成著作權侵害。   羅伯特爾聲稱,他所拍攝的 1992 年洛杉磯暴動事件以及 1994 年高速公路上追捕辛普森的直昇機空拍報導影片,未經他的同意就被上傳並在 YouTube 網站上廣為流傳。 特爾亦聲稱, YouTube 網站從他的作品中獲利,同時也侵害了他的著作權,因此提出了 15 萬美元賠償要求並要求網站不得再使用他的影片資料。   YouTube 網站發表聲明指出,自獲悉特爾提出告訴的消息後,網站就已經將他的影片撤下,另一方面認為網站的行為完全符合「一九九八年 數位千禧年著作權法案」﹙ Digital Millenium Copyright Act of 1998 ﹚之規定,應受到該法案免責條款的保護 。

社群網站平台的商標爭議-Twitter v. Twitpic

  Twitpic公司為提供圖像分享服務軟體服務的公司,於2008年成立,2009年起,提供Twitter(微博)社群網站平台使用者,透過運用Twitpic的即時圖像分享功能,將照片及影像同時上傳至微博的服務;截至2014年6月已提供使用者此項微博平台的分享服務至少6年。Twitpic於2013年10月3日,以公司名稱「TWITPIC」為名稱,向USPTO(美國專利商標局)提出國際分類第42類之電腦服務之商標註冊案,並於2014年6月24日核准公告。   微博公司於知悉Twitpic商標申請資訊後,除了以Twitpic商標近似於先前註冊商標Twitter而提出商標異議外,並威脅Twitpic公司放棄商標申請,否則將切割Twitpic可直接連結照片至Twitter平台的服務。   同時,微博公司發言人表示,為了確保公司品牌及商譽不被侵害及淡化,故除了對於Twitpic公司提出商標異議外,並為了確保使用者能持續使用將照片及影像即時上傳至微博的服務,將由微博平台自行提供相關功能,以減少使用者無法運用Twitpic服務之不便。   因此,Twitpic公司負責人 Noah Everett於2014年9月初宣布,在無足夠的資源對抗大公司如微博的脅迫下,被迫於9月底關閉Twitpic服務。   依據Twitpic於微博上發布之最新消息顯示,Twitpic已被其他買家收購,將持續經營,但有關商標爭議案之後續發展,將持續觀察。

德國聯邦內閣通過「數位家庭給付法」草案,結合數位科技整併各項出生證明、津貼或補助申請窗口

  德國聯邦內閣2020年6月24日通過「數位家庭給付法」草案(Entwurf eines Gesetzes zur Digitalisierung von Familienleistungen),該草案由德國聯邦內政、建設及家園部(Bundesministeriums des Innern, für Bau und Heimat, BMI)及德國聯邦家庭、老年、婦女與青年部(Bundesministeriums für Familie, Senioren, Frauen und Jugend, BMFSFJ)共同提出。草案目的在使多項家庭津貼與補助可以透過網路科技整併至單一申請窗口;利用數位科技的電子治理模式,簡化繁複的紙本申請流程,使用「一鍵式」(ein Klick)服務讓民眾可透過電腦或廣為普及的智慧型手機直接申請。   「數位家庭給付法」草案主要規範內容下列3個面向: 整合與家庭相關之津貼或補助項目:為減輕新生兒父母或監護人(Erziehungsberechtigte)的照顧負擔,BMI及BMFSFJ欲將姓名登記、出生通報、父母津貼(Elterngeld)、育兒津貼(Kindergeld)及兒童補助(Kinderzuschlag)等5項服務合併申請(Kombiantrag),匯整至單一申請窗口。 提供機關間個資合法傳輸基礎:由於申請前述的津貼或補助項目時,申請人須向聯邦政府、各邦政府、法定健康保險機構或雇用人申請相關證明文件,未來處理公共服務之機關經申請人同意合法授權下,得跨部門調閱申請服務相關之資料。 符合資訊安全及個資保護的基礎:該法要求應建立可受信賴的數位授權控管措施,且得驗證數位身分之安全層級,相關措施應符合德國「網路近用法」(Onlinezugangsgesetz, OZG)第8條及歐盟「一般個人資料保護規則」(General Data Protection Regulation, GDPR)的規範要求。   聯邦內閣目前已將該草案提交予聯邦議會審查,預計最快自2022年1月1日分階段實施。然而,德國聯邦政府考量新冠肺炎疫情期間,懷孕婦女或年輕父母採用書面申請,將大幅提高感染COVID-19病毒的風險。因此,該法允許合併申請出生證明、補助或津貼,在今年(2020年)於不來梅邦(Bremen)啟動試辦計畫,另預計明年(2021年)將於其他邦展開相關電子化的申請服務。

稻米基因定序大功告成,有助解決全球糧食問題

  由十個國家的科學家共同努力完成的「國際水稻基因組定序計畫( IRGSP )」,其研究成果刊登於最新一期的 Nature 期刊。科學家們共同解讀水稻 12 條染色體的基因密碼,未來將根據這些密碼來控制水稻的生長和結穗,可望有助解決全球糧食問題。   依聯合國統計資料顯示,水稻是全球人口 20% 的食物能量來源,而在全球人口持續擴增之情況下, 2025 年必須提高 30% 的水稻產量,才能擁有足夠糧食。   自1998 年起,本計畫即在日本主導之下,與中華民國、韓國、英國、加拿大、美國、巴西、印度、法國與中國等國之定序實驗室進行分工、共享,定序後的 DNA 序列將放在公開序列資料庫,供研究人員使用;而本計畫已在 2002 年底完成草圖,並陸續完成彌補空隙與基因註解工作。本計畫之成果於近幾年來,已陸續協助辨識數個影響重要農藝性狀的基因,例如,影響植物生長勢、提高水稻產量的基因、改變水稻光週期、使優良栽培種得以擴展種植面積的基因、控制植株高度的基因等。  水稻基因組定序工作之完成宣告後基因組時代的正式來臨,而完成此一世紀任務之際,善用相關經驗與新知,以投入水稻的深入研究工作,將能台灣水稻及其他作物的遺傳育種研究提供實際幫助。

TOP