「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
考量金融服務業面對科技之影響,金融領域必須轉型,以維持競爭力與時並進,新加坡金融監管局於2017年10月30日發布金融服務領域之產業轉型藍圖(Industry Transformation Map),旨於成為一個連結全球市場、支持亞洲發展,以及為新加坡經濟服務之全球金融中心。 該產業轉型藍圖包含了三部分,分別係:商業策略、創新與監理、以及就業與技能。 一、商業策略:成為領先國際財富管理樞紐。為推動亞洲發展,新加坡金管局預計與業界合作,將新加坡發展為私募市場融資平台。 二、創新和監管:發展重點為促進金融領域創新之普及,並鼓勵使用科學技術提升效率與創造機會,其具體方式包括: 透過API應用程式介面,鼓勵金融機構提升創造力和科技創新。 與金融機構合作打造常用的工具,如電子支付、電子身分識別(know-your-client)機制等。 促進和投資研發,開發新的解決方案,包括使用分帳式技術進行銀行間的支付與貿易融資。 擴展與其他Fintech中心之間的跨境合作協議,讓新加坡成為國外Fintech新創企業之育成基地。 使用科學技術,簡化金融機構監管。 三、就業和技能:新加坡金管局將擴大金融服務業的人才庫,加強新入和中期轉換跑道之人員在資訊科技上的專業技能。 該金融服務產業轉型藍圖之目標為,每年在金融領域達到4.3%實際增長值,並創造3,000個工作,其中金融科技領域部分達成1,000個工作機會。
Trader Joe’s v.s. Pirate Joe’s 超市品牌商標之爭居住於溫哥華的加拿大人Michael Hallatt(以下簡稱Hallatt),在加拿大設立了一家超市名為”Pirate Joe’s”,其貨品來源主要來自美國知名大型超商Trader Joe’s的產品,每年往來美國、加拿大平均花費近35萬美元購買Trader Joe’s的產品,包含有機沾醬、巧克力餅乾、裹著牛奶巧克力的洋芋片等熱門產品。 自稱為Trader Joe’s的最忠實客戶Hallatt,卻於今年(2013)被Trader Joe’s於美國境內提出訴訟,Trader Joe’s主張Hallatt經營Pirate Joe’s的方式侵害其商標權(trademark infringement)、不實廣告(false advertising)、使消費者誤認Pirate Joe’s有經Trader Joe’s授權或認同(false endorsement)等。 Trader Joe’s表示其花費大量時間及心力洞悉消費市場需求及產品推出時機點,逐項開發及製造產品,而Hallatt卻不費吹灰之力,直接買進相關產品後於加拿大以較高價格再次販售。Pirate Joe’s的經營模式可能誤導甚至欺瞞消費者使消費者誤認Pirate Joe’s為經過Trader Joe’s授權或同意之賣商。此外,Trader Joe’s認為Pirate Joe’s店面視覺上與Trader Joe’s超市外觀十分相近,有抄襲Trader Joe’s著名的商業表徵(South Pacific trade dress)。更甚者,Trader Joe’s認為Pirate Joe’s販售的有可能是已經受損的、過期的或其他不符合Trader Joe’s品管標準的產品,Pirate Joe’s這樣的銷售行為將導致Trader Joe’s無法解決前述所指出的產品潛在問題,嚴重毀損Trader Joe’s商譽及品牌形象。 另一方面,Hallatt則認為他僅是為了加拿大消費者方便,為消費者省去交通成本、時間等,讓消費者在加拿大即可購買到美國Trader Joe’s的產品,其認為其有權利再次銷售其合法購買取得的商品,即便他販售的價格稍微高些。 此訴訟目前仍在進行中,一方為美國知名大型超商Trader Joe’s,另一方為販售Trader Joe’s產品的加拿大超商Pirate Joe’s,在「品牌形象保護」及「產品合法再銷售範疇」兩者權衡下,究竟這場商標相關爭訟結果為何值得拭目以待。
歐盟公布數位單一市場下ICT標準化優先發展項目歐盟於2016年4月19日公布數位單一市場下ICT標準化優先發展項目(ICT Standardisation Priorities for the Digital Single Market),包括:5G通訊、雲端運算、智慧聯網、巨量資料技術、以及網路安全等,作為目前數位單一市場發展的基礎。相關影響產業包含:智慧健康、智慧能源、智慧運輸系統、電動車、智慧家居、以及智慧城市等。其三大主軸依次說明如下: 1. ICT標準建立為數位單一市場發展核心 歐盟將依1025/2012規則為基礎,進行標準化建立,因此將聚焦在數位單一市場需要發展的核心技術領域,優先進行標準訂定。 2. 因應全球技術變遷發展 ICT標準發展主要仍以產業為導向,且由產業自願性採納,建立之原則包括應具備透明性、開放、公平與一致性、有效與連結性等,此同時也能促成歐洲創新能量之發展。 3.以雙主軸計畫優先發展ICT標準設立 (1)首先歐盟執委會將確認數位單一市場優先發展之五項領域,並且設立發展時程。 (2)針對上述的優先發展領域,歐盟將進行施行檢視以及相關細項。 在5G通訊部分,預計將透過5G公私協力合作發展,同時以目前產業的需求為發展導向;在雲端運算方面,歐盟將以資金補助方式,促進雲端應用的互通性與易取性發展,並且支持企業,尤其在中小企業部分,以服務層級協議為基礎,協助採用雲端運算服務;在智慧聯網發展部分,主要為發展技術、介面、Open API等,建立準則,並預計將智慧聯網標準納入成為政府採購項目之一;在網路安全性部分,在上述發展技術領域當中,資料安全與隱私保護為核心議題,因此除了透過公司協力方式發展安全技術以外,同時也鼓勵業者應該設計著手保護隱私等概念優先納入技術之中;關於巨量資料技術部分,包括跨部門技術整合、資料與後設資料有更佳的互通性。此外,尚包括資料與軟體基礎設施服務,提供科學資料的交換、執行資料管理計畫、品質驗證、信賴性與透明性等原則。 最後,在可能受影響之產業方面,以智慧健康發展為例,智慧健康必須符合病人預期要求,如病人安全維護以及達到更佳的健康照護體系。因此,互通性的標準為當中關鍵的角色,未來亦有助於發展各國之間跨境醫療照護實踐。在電子病歷交換方面,從病人病歷摘要、電子處方簽等等,在符合個資保護條件之下,建立互通性標準可使疾病的治療更為完善。歐盟未來將持續鼓勵各會員國之間標準互通性之發展,包含目前行動健康應用程式的使用,以及未來遠距醫療應用。後續,歐盟將從2016年開始至2017年,持續針對標準建立進行討論會議,預計以資金費用補助以及其他政策方式輔導發展,同時也在2016年6月提出規劃說明使歐盟標準化政策發展符合現代化。
美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。 美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。 與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。 但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。