在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
現年八十六歲的奧地利老人 Nikolai Borg ,決定對德國著名汽車公司 --- 福斯汽車提起訴訟,請求該公司對外正式發表聲明,宣示其才是該公司 VW 商標真正的設計者。該項訴訟費用已經獲得奧地利貿易協會的資助。 Volkswagen 的原意為「國民車」,起源於納粹德國的國民車計畫,是當時納粹政府「由歡愉獲得力量計畫」( the Nazi Kraft durch Freude propaganda scheme )中的一部份,當時政府一方面奴役勞工,但一方面也希望建立一個世界上最完善的社會福利制度,故也希望建造出每個勞工都開得起的汽車。 從 1950 年起 Borg 便為 VW 商標而戰,但從未成功。其非難福斯公司因為不敢面對納粹難堪的過去,因此也不承認對其應負的責任。 Borg 指出,當時納粹時期的德國交通部長 Fritz Todt 委任他設計商標,當時有三個計畫需要設計標誌,不過由於國民車的計畫是一個新的計畫,因此 Todt 希望他可以設計國民車的標誌。由於當時為公部門工作所得之創意產物是不可能申請智慧財產權的,因此 Borg 在設計出該標誌後,並未獲得任何權利,儘管戰後其多次與福斯公司交涉,希望該公司承認其才是真正的商標設計者,但截至目前為止,福斯公司都聲稱該公司的標誌到底是誰設計的,目前已經無法得知。(科法中心 劉憶成編譯)
加拿大隱私主管機關發布個人資料保存與處理指引文件在世界各國,無論是公務機關或非公務機關,均無可避免地大量蒐集個人資料,這些資料包括一般民眾、雇員、顧客或潛在客戶等。對此,加拿大隱私委員會辦公室(Office of the Privacy Commissioner of Canada,簡稱OPC)發布關於「個人資料保存與處理指引文件:原則與良好實作」(Personal Information Retention and Disposal:Principles and Best Practices),以協助聯邦機構與私人機構對組織內部保有之個人資料,做好妥善保存與處理。 OPC建議組織應在內部制定相關管理政策與程序,並於指引文件中提出11項參考要點,其中包括1.是否定期審查蒐集個人資料與保有目的之關連與妥適性?多久審查一次;2.對於保有之個人資料及保存目的是否進行清查與盤點?多久確認一次?3.個人資料儲存的形式與地點為何?是否有備份?4.法律是否有規定最低保存期限?5.組織如何處理個人資料與相關備份檔案?6.對於儲存個人資料之裝置或設備,是否採行適當地安全維護措施?7.個人資料保管與處理相關政策的核決人為誰?8.對於利用資料生命週期追蹤資料,是否存在適當管制程序?9.內部員工是否了解並熟悉組織關於個人資料保存與處理之政策規定?;是否有制定文件銷毀之安全措施?10.資料等候處理期間是否受到安全妥善之保管?11.對於使用資料之第三方,是否有透過合約或其他機制進行有效監督管控措施?是否制定定期查核機制?等,期以協助組織掌握政策與程序制定要領。
Google否認其核心網絡搜索技術涉及侵權針對Google 於去年11月被美國東北大學(Northeastern University)向德州東區聯邦法院馬歇爾分院 (the US District Court for the Eastern District of Texas in Marshall) 所提出之專利侵權訴訟案,指控Google的核心網絡搜索系統所使用的搜索技術涉嫌侵害東北大學所擁有的專利, Google 於日前指稱該訴訟無任何法律依據, 指出其搜索核心技術是由Google自行研發並主張東北大學的專利為無效之專利且即使東北大學的專利為有效,因原告於發現其所稱被告可能侵權之事實後,從未告知Google並已拖延太久時間(約兩年半)才提出訴訟,原告已喪失請求賠償的權利。Google請求法院駁回原告之訴,並宣告原告的專利為無效。如上述請求不被法院接受,Google 則請求陪審團審判 (由此可看出Google 不怕輸的決心)。 此案的原告為美國東北大學和Jarg公司。Kenneth Baclawski (前東北大學教授及Jarg公司創始人) 於1997年取得了編號為5,694,593之搜索技術相關的專利, 比Google公司的成立早了一年。原告訴請法院除去被告之侵害、並請求損害賠償及支付訴訟費用等。 對於Google的回應,Michael Belanger, Jarg公司的另一名創始人兼總裁Michael Belanger表示,由於全案已進入訴訟程序,不便加以評論。
昇陽進入開放原始碼 Solaris 時代昇陽公司本月十四日把 500 多萬行 Solaris 核心 (kernel) 的原始碼張貼在 OpenSolaris 網站上。不過,一些原始碼元件,像是安裝程式與管理工具,因為仍在逐行檢視以免專利侵權問題,稍後才會推出。 Solaris 是使用率相當廣的一種 Unix 衍生版本,在一九九○年代末期網路泡沫時期大行其道,但後來隨開原碼作業系統 Linux 竄起而式微。同時,微軟的 Windows 作業系統,也蠶食著昇陽的市占率。為了讓 Solaris 成為開放原始碼軟體,昇陽積極拉攏軟體開發人員,軟體開發人數增多,可能引來更多的使用者、更多的合作夥伴,以及更多的軟體開發者。然而,要與氣勢正旺的 Linux 競爭,並非易事。 Solaris 開發工程僅傾昇陽一家公司之力,但 Linux 幕後卻有廣大的開發人員社群支持。 Quandt Analytics 分析師 Stacey Quandt 說,與外部程式設計師分享權力,是昇陽必須通過的考驗。對昇陽來說,真正的挑戰是,昇陽是否真能容納局外人貢獻的修補程式,而且不叫昇陽經驗老到的工程師加以改寫。 OpenSolaris 是昇陽自行研發的專屬計畫,但不表示一定會失敗。 IBM 即曾經以 Eclipse 程式設計工具為中心,建立起活力十足的開原碼社群,就是成功的例子。昇陽雖來不及按原訂計畫在二○○四年推出 OpenSolaris ,但已推動一些配套措施,包括在今年一月發布稱為 DTrace 的元件,提供詳細的效能分析;吸引一百五十位外部程式設計人員參與 OpenSolaris 測試計畫;並成立由五人組成的社群顧問委員會,其中兩席是昇陽的代表。