合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=57&tp=1 (最後瀏覽日:2024/11/23)
引註此篇文章
你可能還會想看
政府資訊加值利用與管理法制研究:以美國及英國為例

歐盟知識產權報告顯示智慧財產權對於企業經濟績效具有正相關

  歐盟智慧財產局(European Union Intellectual Property Office, EUIPO)與歐洲專利局(European Patent Office, EPO)於2021年2月所發布的研究報告「智慧財產權與企業績效」(Intellectual property rights and firm performance in the European Union)中,調查了歐盟成員國,總數超過12萬間公司,分析擁有智慧財產權(包含發明專利、設計專利與商標)跟未擁有智慧財產權的企業表現。   該研究報告分析結果顯示,擁有智慧財產權的企業經濟績效優於無智慧財產權的企業,平均來說擁有智慧財產權企業的員工工資比無智慧財產權企業的員工工資高19%,人均收入則平均高20%,這情況在中小企業更為明顯,擁有智慧財產權的中小企業比起無智慧財產權的中小企業,人均收入約高68%,再以擁有不同類型的智慧財產權進行區分,擁有發明專利的企業,其員工工資約高53%,收入約高36%,擁有設計專利的企業,其員工工資約高30%,收入約高32%,擁有商標的企業,其員工工資約高17%,收入約高21%。   該研究報告的內容尚無法找出智慧財產權有助於提升企業經濟績效的關鍵證據,但已呈現出智慧財產權與企業經濟績效之間具有正相關的趨勢,也凸顯出中小企業利用智慧財產權的巨大潛力。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

Refuah公司與紐約總檢察長達成和解並投資120萬美元保護病人資料

紐約州總檢察長Letitia James於2024年1月5日與健康照護服務業者Refuah Health Center, Inc.(下稱Refuah公司)達成和解,主因為該公司遭受勒索軟體攻擊(ransomware attack),約25萬紐約州民個資遭到洩漏。和解協議要求Refuah公司支付共計45 萬美元之民事懲罰金及費用(penalties and costs),且應投資 120 萬美元加強網路安全(cybersecurity)。 Refuah公司主要業務為經營三家醫療機構和五輛行動醫療車(mobile medical vans)。2021 年 5 月,Refuah公司遭到勒索軟體攻擊,網路攻擊者得以近用數千名病人的資料,取得了包含姓名、地址、電話號碼、社會保險號碼、駕照號碼、出生日期、金融帳號、醫療保險號碼等資料。 依據檢察長辦公室的調查顯示,攻擊者之所以得近用這些資料,原因為 Refuah公司未採取適當安全維護措施,包括:未停用不活躍之使用者帳號(inactive user accounts);未定期更換使用者帳號憑證(user account credentials);未限制員工僅得近用其業務所必需之資源和資料;未使用多重要素驗證(multi-factor authentication)以及未加密病人資料。 依據協議內容,Refuah公司同意投資 120 萬美元,用於開發和維護更強大的資訊安全計畫(information security programs),以更妥適地保護病人資料。該協議還要求Refuah公司應: 1.維護全面的資訊安全計畫,以保護消費者資料的安全性、機密性和完整性; 2.實施並持續更新消費者資料近用限制相關政策和程序; 3.遠端近用資源和資料應使用多重要素驗證; 4.定期更新近用資源和資料的憑證; 5.至少每半年進行一次稽核,確保使用者僅近用其業務所必需之資源和資料; 6.對所有儲存或傳輸的消費者資料進行加密; 7.實施控制措施,監控和記錄公司網路和系統的所有安全和操作活動;以及 8.制定、實施和持續更新全面的事故應變計畫。 Refuah公司還須向州政府支付共計45 萬美元之民事懲罰金及費用,其中 10 萬美元將在該公司投入 120 萬美元開發和維護其資訊安全計畫後,得暫緩支付。

FCC對於頻譜管理與拍賣的法規修正

美國聯那通訊委員會 (Federal Communications Commission, FCC)在本月十四日公佈了一份有關「商業頻譜加強法案(Commercial Spectrum Enhancement Act, CSEA)」的執行命令與法規預訂修正通知(Declaratory Ruling and Notice of Proposed Rule Making)。希冀能制訂一定的行政規則而確切地遵照CSEA的規範;同時,FCC也在文件報告中也提出了一些對於目前競價拍賣規則的相關修正意見。   最初在 CSEA法案中設計了頻譜的拍賣收益機制,主要係補償聯邦機構在一些特定頻率(216-220 MHz, 1432-1435 MHz, 1710-1755 MHz, and 2385-2390 MHz)中,以及一些從聯邦專屬使用區重新定頻到非專用區的頻率,因移頻所支應出的必要成本。而在FCC的公佈報告中,委員會認為惟有定義清楚,方能有效地落實該法的執行。因此FCC詳細解釋說明了CSEA中對於「總體現金收益(total cash proceeds)」的意義,FCC認為所謂的總體現金收益應該是原始獲標的價格扣除掉任何有可能的折扣或扣損;同時,FCC也在預定修正公告中,認為應改變委員會的拍賣價格規定以配合CSEA的規定。另外,也修正了部落地的拍賣信用補償制度(Tribal Land Bidding Credit Rule)等規定。

TOP