文字探勘 (8/22) 心得報告 (授課老師:張德民)

18 則回覆 [最新文章]
xisrootchen
xisrootchen's 的頭像
Offline
一般會員
已加入: 2013/06/18

回應

楊登祺
Offline
一般會員
已加入: 2013/07/10
N014020015 楊登祺 心得

    在這次的課程中,張德民老師講的是文字探勘(text mining),與林耕霈老師說講解的資料探勘(data mining)課程,二者之間是有差異的。資料探勘善於處理結構化(structured)資料,例資料儲存於資料庫裡的欄位。文字探勘善於處理非結構化(unstructured)資料,例資料沒有固定的結構性,如一長串的新聞報導文字。

    文字探勘的應用如下,例如公司每天會接收到許多客戶電子郵件的意見回饋,要如何從這麼大量的郵件中,找尋到那些是需要處理的郵件,這時文字探勘就可以派上用場,找出那些信件內容是對公司有負面評價的,針對這些再予以進一步的處理;如果找出的信件真的還是太多了,可以再進一步對這些郵件做文件摘要的處理(就如同Summly摘要新聞APP),再輔以肉眼篩選,找出摘要中最緊急的信件,優先處理這些郵件;如此可以節省許多時間,快速找到必須優先處理的郵件。

 

N014020015 楊登祺

N014020026
N014020026's 的頭像
Offline
一般會員
已加入: 2013/07/09
N014020026 陳駿弘 心得

初次體會到張老師的上課,可說是字語連珠快如飛梭,連反應的速度也隨著步調加快了起來。老師這次講的是Text mining,在Text mining中主要是研究半結構化、非結構化的資料,因為文字的搜尋大多會針對文意、語意的表達來進行判斷,老師在課堂上提到一個例子,譬如the有可能在文章中是出現最多次的,只是這個文字多為題是名詞而產生的定冠詞,反倒是the之後的名詞可能是文章中的重點字。文字探勘是將隱藏於字裡行間的資訊切割成可處理的獨立資訊單位,其中包括同義字的確認,也因為文字的非結構化特性,處理的對象多為長短不一、記載訊息的自由文字。在系統上的由於資料特性的不同,資料探勘(Data Mining)與文字探勘(Text Mining)在步驟與方法的技術細節上都有所差異。TM運用的技術,幾乎都跟詞彙的頻率與出現篇數有關,主要運用在大量的文件庫上,供作資訊搜尋、訊息過濾、事件關聯、知識萃取、知識管理、決策輔助等之用。 其中一字多義的情況也是要特別去注意的地方,譬如JAGUAR在汽車品牌或是在動物園,是分別代表不同意思,文字探勘要發掘的不但是對文字的判斷,也要針對文意之間彼此的應對關係來了解。

adon
adon's 的頭像
Offline
一般會員
已加入: 2013/07/08
沒有準時到課的壞處就是完全無法理解課程走到哪兒了,尤其是張

沒有準時到課的壞處就是完全無法理解課程走到哪兒了,尤其是張老師的授課特色極有趣,當我坐定之後,老師馬上丟了問題要我接??我除了丈二金剛摸不著頭腦,也實在是完全無法接的著老師丟來的球,之後更完全浸在英文+數學課的駭人氛圍中.
但是文字探勘真的是一門有趣的科目,尤其在分群與分類的方法中,去做大要的區隔,在進行分類的作業,其實這種特徵的尋找、選擇、釐清、歸納、區隔等步驟.
對應課程開始時的「英文課」,亦就能明瞭老師要提點的是詞性的重要,初期需經過磁性的分析,才能進入篩選與分群階段,也才能承接後續資訊萃取、領域知識萃取等等重要的階段.
課程剛好也搭配林耕沛老師的Data Mining,前後呼應讓我更能理解其技術與應用面的未來性與發展的強大.

我是正敦

chrisyan
chrisyan's 的頭像
Offline
一般會員
已加入: 2013/07/09
Text Mining文字探戡

Text Mining文字探戡是從文字的分類與分群開始,這是我第一次上張老師的課,一開始就被張老師的講課技巧震驚,張老師授課的速度如同機關槍,一稍微晃神,可能就錯過精彩的一段話,因此,上張老師課必須非常專心,精神狀態非常飽滿才行。

一篇文章,如何利用電腦來判斷是否自己想要的資料,原來就是把文字分類,詞性分類,用詞性判斷;如名詞/動詞,名詞片語(如資管,資訊管理), 把有用的留下來。

不用詞性判斷:TF-IDF詞的頻率出現很多次, 代表很重要,但the並不重要,要忽略它, 因為沒有區別性。

或是一個詞在每篇文章出現的次數來判斷其是否重要,是否有單一獨特性。

透過分類的方式與各種計算,讓程式能判斷出是否自己想要的答案,這是另一個進入人工智慧判斷的入門,對學生而言,算是開啟了另一個大門。

ryanchiu
ryanchiu's 的頭像
Offline
一般會員
已加入: 2013/07/12
N014020016邱俊明心得報告

  文字探勘是利用資料探勘技術進行文件的文字資料分析,資料探勘是利用來尋找獨立資料間的關聯性,而文字探勘則是用來分析尋找文字間的關聯性。文字探勘與資料探勘的最大不同在於,文字探勘因為是針對文字進行分析且文字資料多屬半結構化與非結構化資料,因此需要先針對文字進行前處理。

  文字探勘主要用於文件分類、文件分群、文件摘要、主題蒐尋、資訊萃取、機器學習、領域知識萃取與知識管理等領域。知識探索程序如下圖:

文字探勘的前處理程序如下圖:

1.Tagging:進行詞性分析,包括前後詞判斷,而中文的文字探勘的一個主要問題是中文單字有可能會與前後字組成單詞,因此中文的文字探勘可能需要透過詞庫進行標計處理。

2.Stemming:移除單詞中的suffix,即字根還原處理。

3.Feature Selection:將萃取出來的單詞(Terms)進行進一步篩選,主要有兩個步驟;一、決定保留哪些單詞如名詞或動詞;二、利用TF-IDF或卡方檢定等技術分析單詞的頻率。

  透過上述三個步驟便可以將文件的重要特性單詞萃取出來,以便進行後續的資訊處理。例如以網頁探勘為例,透過瀏覽頁面分析,可以分析消費者的瀏覽行為及消費行為,進一步做到客戶分群,並擬定及提供客製化的服務給消費者。

WenShuHsu
WenShuHsu's 的頭像
Offline
一般會員
已加入: 2013/07/09
N014020014

張德民老師在課堂上,已圖例先幫學生門複習之前林耕沛老師所提到的Data Mining 過程
接著再定義甚麼是Text Mining;包含所需要的方法Knowledge discovery process、
Text preprocessing、Text mining process,以及POS Tagging、Stemming、與
Feature Selection等。其中學生印象最深刻的是POS Tagging、Stemming。POS Tagging
(Part-of-speech tagging)主要是定義英文字的詞性(noun, verb, article, adjective,
preposition, pronoun, adverb, conjunction, and interjection),名詞有性別的分類、
名詞有單複數的分類、以及動詞有時態性(過去式、現在式、未來式)。以上透過演算法
識別出最有可能的詞性,然後定義出詞意。Stemming(字根還原),張老師上舉create當例子
(creating,creative,creation),利用演算法將文章內的英文字還原為字根。最後,
張老師還特別強調同義字(synonymy)和一字多義字(polysemy)。同義字(synonymy)舉car為例。
car→automobile→sedan→vehicle;jackal→animal or Jackal→ Car brand。
一字多義字(polysemy) desert(沙漠 or 點心)。

mark
Offline
一般會員
已加入: 2013/07/09
N014020003 胡志忠 心得

這是第一次上張德民老師的課程,對於老師的上課方式,讓我覺得相當有趣,但也很緊張,由其對我們這種英文能力不好的人,真的有些壓力,但我相信老師這樣在課堂上幫大家覆習了一下英文的詞性規則,主要是讓我們能夠加深印象方式外,也透過這種方式了解中文與英文之間的文字在Text mining的差異外,我們也在過程中了解到文字與文章在我們人類的知識與溝通的過程當中會有不同的組成方式,這也是為什麼會增加了文本探勘作法的難度,就如我們常會遇到synonym 同義字與polysemy 多義字的情況。而Text  mining如何用在於未知的事物的探索,例如面對網路上的各種資料,我們可以將瀏覽過的文章或網站以個人的經驗來做分群,再利用半結構化或為結構化的資料方式搜尋重複出現的關鍵字,這樣的方式除了可運用在商業行為上,有助於廠商找出未來產品開發的方向,另外我們也可以利用Text mining就可以把這些非常大量的資訊,轉化為我們想要的調查分析資訊,增加無限可能運用。

週一, 2013/09/02 - 07:55
#8
erichom506
Offline
一般會員
已加入: 2013/07/08
N014020005 洪立剛 心得

本週張德民老師帶領大家探索Text mining的初步概念,一開始老師問什麼是text mining?原來就是和一堆文字(文章)在做互動。這些互動是透過information retrieval、machine learning、corpus-based computational linguistics(corpus:文件庫)...等技術來實現。Text mining的特殊之處在於,由於文字文章在我們人類的傳遞知識與溝通的過程當中會有各種不同的組成方式,也因此增加了文本探勘的難度,例如老師提到常會遇到「synonym 同義字」與「 polysemy 多義字」的情況,拿jaguar這個單字來說,當它所在的文章中出現car、toyota、BMW等等其他單字的時候,我們就會知道jaguar指的是汽車的廠牌;同樣的當它出現在非洲、叢林等等的文章中時,直覺簡單的推論,jaguar指的是「黑豹」這個動物。另外讓我印象深刻的是,老師提到TF-IDF(term frequency–inverse document frequency)這種資訊檢索與文本挖掘的常用加權技術。簡單的說,一個字在一篇文章中出現很多次,代表他很重要!

但是一個字在每篇文章都出現很多次,就代表他一點都不重要。

 

週六, 2013/08/31 - 16:42
#9
柳宗元
柳宗元's 的頭像
Offline
一般會員
已加入: 2013/07/11
心得分享(8)黃國忠

心得分享(8)黃國忠

張德民老師  文字探勘

關於文字探勘老師介紹了一個分群理論:SVD分解,什麼是SVD分解,為什麼要用到它,

你可以想像將每篇文件中的字彙存在矩陣中形成一個字彙-文件矩陣,我把它做成下圖:


寫成矩陣的好處是可以進行矩陣的運算,其中之一為分解矩陣,
將大型矩陣分解成更基本且更小的矩陣以方便研究,
圖中即將(字彙-文件矩陣)分解成(字彙- 概念矩陣)×(概念-概念矩陣)×(概念-文件矩陣),
好處是我們可以利用(字彙-概念矩陣)來作分群的依據,如何進行呢?

例如:字彙-概念矩陣的前k行找出代表所有文件的k個概念,

用這k個概念和另一文件來做相似度比較決定此文件要分至那一群。

除了分群之外,利用分群的想法,我們可以對近百年的期刊文獻進行文字探勘,

整理百年來持續不墜的研究。

四, 2013/08/29 - 21:41
#10
snpshu
snpshu's 的頭像
Offline
一般會員
已加入: 2013/07/09
N014020013 蘇俊榮心得

    這次張德民老師帶著我們認識文字探勘(Text Mining),探索文字探勘的幾個重要程序,包含Knowledge discovery process、Text preprocessing、Text mining process,以及POS Tagging、Stemming、與Feature Selection等文字處理方法,依據我們探勘資料的特性,選擇需要的程序‧

一般Knowledge Discovery(KD) 知識探勘 ,分做幾個stage

  1. Selection

  2. Pre-processing

  3. Transformation

  4. Data Mining

  5. Interpretation/Evaluation

    KD可分為資料探勘(data mining, DM)與文字探勘(Text Mining),張老師在課堂有特別跟大家說明差異,前者主要處理結構化資料,比如資料庫的資料,後者處理非結構化資料,比如課堂中的文字例子,就屬於非結構化資料‧透過我們選擇的處理方式將一連串的文字資料,轉換成我們要分析資料,如POS Tagging處理詞性與斷詞、Stemming找出字根去除不必要的‧老師將每個文字處理,除了介紹定義之外,也用一個例子來詳細說明處理的前後差別,以及使用此方法的目的,讓學生觀念更加清楚,對於資訊管理的研究能借用語文學來做文字探勘,這樣的組合實在很有趣,也克服非結構化的諸多限制‧

此外,老師透過亂數抽人的方式,讓整堂課程氣氛一直很熱絡,雖然只有短短一堂課,也讓學生體驗張老師的有趣認真教學風格‧

四, 2013/08/29 - 21:30
#11
claudialee
Offline
一般會員
已加入: 2013/07/12
N014020002 李明純

Text Mining

文字是種半結構化(Semi-Structure Data)的資料,之所以稱為半結構化,因為文字在某個程度上是有字根可循,但又因排列組合的不同而產生的意思也不同造成無規則可遵循。與英文相比,中文相較之下是較難,因為中文有所謂的[斷句],在不同地方下標點符號會使字句的意義有很大的不同,而英文就無此問題。

使用text mining技術之前必需對於語言的規則有一定的理解才能知道該如何設計程式來找有意義的字句和發掘一堆文字之中的潛在的含義(Hidden Topic Discovery), 因此老師在課堂上幫大家覆習了一下英文的詞性規則。

老師有提到出現在一堆文字之中的頻率最高的字句理當是最重要的文字,但有一個例外,那就是在英文文章中出現最多的單字”the”反而是不代太多意義的。

此外也要留意,同義字(synonymy)和一字多義字(polysemy)可能會造成的誤判。

 

在做text mining之前需經過一道手續-Text Preprocessing.  

 

Preprocess text to extract features如下:

 

 

Collect

Document    --> POS (part of speech)詞性 tagging -->Stemming字根還源-->Term Feature-->Feature

Selection--> Features

 

從收集來的文件中分析詞性,以英文為例,名詞是較為重要的,接著是形容詞,然後最不重要的則是冠詞。接著將字根還源再找出文字中的特點,接著選出重要的特點。以上的preprocessing步驟可以依文件的特性做適當的整調,並非要按照步驟來進行。

四, 2013/08/29 - 00:26
#12
YuanruWang
YuanruWang's 的頭像
Offline
一般會員
已加入: 2013/07/09
N014030015王苑如 心得

本周張德民老師為我們介紹的是文字探勘(Text Mining),課程中老師介紹了文字探勘的基本概念像是Knowledge discovery processText mining processText preprocessingPOS TaggingStemmingFeature Selection等等基本知識與手法,最後再以分類及分群逐步帶到文字探勘。文字探勘最大的應用在於對未知事務的探索,例如面對網路上的資料,我們可以將瀏覽過的文章或網站,以個人的經驗來做分群,再以半結構化或為結構化的資料搜尋重複出現的關鍵字,這樣的方式運用在商業行為上,會有助於廠商找出未來產品開發的方向,而不需要再以試水溫或小樣本來測試產品是否引起消費者興趣。文字探勘技術在這幾年內發展越趨成熟,除了將文本資料擷取至資料端,也包含以語意分析技術判別資料內容的屬性,此外,Big Data的話題持續發燒,許多應用也應運而生,尤其是隨著社群網站的興起,再加上行動通訊的蓬勃發展,使用者可以隨時隨地發表自己的意見,網路使用者將各種不同的意見資訊,放在網路的Big Data之中,而我們只要利用自動化的技術,就可以將這些大量的資訊,轉化為我們想要的調查分析。

二, 2013/08/27 - 23:00
#13
張簡志璋
張簡志璋's 的頭像
Offline
一般會員
已加入: 2013/06/11
N014020029 張簡志璋 心得 8/22

今天的課程是文字探勘。首先老師先複習資料探勘的基本知識與手法,再以分類及分群逐步帶到文字探勘。文字探勘最大的應用是在分群,再半結構化或為結構化的資料搜尋重複出現的關鍵字。而這個階段主要的議題在於重複出現但無意義的字眼,如”THE”。經過這個階段,就可以讓系統對資料做分群,建立分類的基礎模型。

透過這個模型,對其他的資料就可以加以分類,形成資料,以便繼續往後形成知識,進而形成知識管理系統。

文字探勘的應用在於為未知的事務的探索,如現在面對網路上的資料,我們可以一篇篇的將瀏覽過的文章或網站以個人的經驗來做分類。但是個人的力量有限。同時,這樣的知識是植基於個人現有的知識上。對於未知的事務,可能無法及時察覺。或許這樣的方式對個人影響不大,但對於商業行為上,可能有助於產商找出未來產品開發的方向,而不需要再以試水溫或小樣本來推測產品是否讓人感興趣。

二, 2013/08/27 - 22:22
#14
ten510
ten510's 的頭像
Offline
一般會員
已加入: 2013/06/19
N014020010 吳宜霖 課後心得
     本周張德民所講授的課程是Text Mining, 課程中老師介紹了Text Mining的基本概念,其包含了Knowledge discovery process, Text mining process, Text preprocessing,POS Tagging(將詞性貼標籤), Stemming(字根還原), Feature Selection(特性的選擇)...等。而在上完課後, 我就思考Text Mining目前的應用方向是在哪裡呢?就目前常聽到的都是Data Mining, 而其差別在哪裡呢?於是我去google一下,找到了下列的相關資訊, 與大家分享。
 
Text mining目前的應用
Text Mining 跟Data Ming 的不同在於, Data mining處理的資料屬性是結構化的資料庫或檔案, 而 Text mining則用於處理半結構或非結構化的資料, 例如 email、web page、system Log等這些電子檔,而Text mining的目的則在於從這些電子檔中,運用關連(Association)、分類(Classification)或叢集(Cluster)等三大領域演算法進行採礦,找出有意義的模型,目前在醫學、法律、商業、工程、電腦等諸多領域已有多種應用被發表,以下摘要如下:
 
一. 安全類 (Security application)
在此類別中最重要的應用當屬ECHELON,它可以經由衛星通訊、大眾交換電話網路、及微波來截聽全球的電話、傳真及email。另外在2007歐盟智慧型部門也發展了一套分析系統OASIS(Overall Analysis System for Intelligence Support),要來追蹤組織型交易犯罪。
 
二. 生物醫學類 (Biomedical applications)
在此類中第一個最有名的應用是PubGene,它是一個搜尋引擎,取自MEDLINE (Medical Literature Analysis and Retrieval System Online) 這個含有大量生命科學及生物醫學文獻資料庫,用生物醫學的關鍵字組織成一個圖形網路,用視覺方式來展現關鍵字跟文獻資料間可能的關聯,目前此技術已商用化了。另外GoPubMed則一個整合式搜尋引擎, 目標族群主要是生物醫學的資料, 如果研究屬於關於生醫領域, 這是個不錯的文獻搜尋引擎, 相當方便。
 
三. 軟體應用類 (Software and applications)
一些軟體公司如IBM及微軟正在研發 text mining的軟體,來加速探勘及分析的程序。有一些公司則致力於搜尋與索引的領域中。
 
四. 行銷類應用 (Marketing applications)
Text Mining 已經開始被運用到行銷中,尤其是客戶關係管理(Customer Rrelationship Management) ,Coussement and Van den Poel 運用它來系統性分析客戶的流動率(Customer attrition)。
 
五. 學術類運用 (Academic applications)
針對在學術界中握有大型資訊資料庫,並且極需為了快速獲取資訊而做索[以的那些出版商,text mining尤其重要,因此Nature 及 NIH二個重要的出版商分別提出OTMI (Open Text Mining Interface)及DTD (Document Type Definition),來讓系統可以運用語意線索來橫跨出版商,回應包含在文稿中的特定問題。許多學術機構也紛紛投身到text mining領域中,例如Manchester 及 Livepool就合作創立了National Centre for Text Mining,提供客制化的工具及研究設備給研究組織。這個中心是由JISC及韓國的 Research Councils所共同創辦,主要是在biological 及 biomedical 科學領域,目前已擴展到Social Science。另外,在美國Cakifornia 博克來分校資訊系已發展了套BioText系統,去協助生物醫學研究者進行領域分析。

吳宜霖  N014020010

二, 2013/08/27 - 17:18
#15
N014020027
N014020027's 的頭像
Offline
一般會員
已加入: 2013/06/19
N014020027 林良翰 文字探勘心得

這次文字探勘的課程是第一次接觸,以往都是聽到資料探勘,針對數字進行研究分析,找出潛在的需求,而現今社會包含各式各樣的文字資料,像是報章雜誌、書籍或是網站。這樣多種類的文字資料如果未經整理,往往令人覺得資訊過於雜亂無章,無法被有效的利用。文字探勘技術在這幾年內技術越來越成熟,除了將文本資料擷取至資料端,也包含以語意分析技術判別資料內容的屬性,分析的誤差已在可接受範圍內。Big Data的話題持續發燒,許多應用也隨之而生,尤其這幾年Facebook的興起,加上手機網路的盛行,使用者可以隨時隨地的發表自己的意見,網路使用者將各種不同的意見資訊,主動放在網路的Big Data之中,而我們只要利用自動化的技術,就可以把這些非常大量的資訊,轉為我們想要的調查分析,這為文字探勘技術的應用,帶來了無限的可能性。

二, 2013/08/27 - 17:16
#16
JenChuang
JenChuang's 的頭像
Offline
一般會員
已加入: 2013/07/10
N014020024 莊麗貞

Text Mining 與Data Mining 主要的差異在於後者處理結構化資料(structural data),而Text Mining處理非結構化資料(unstructural data),其資料往往無共通的結構性可言,經常為長短不一或記載訊息的自由文字。對於詞性的分析,詞彙出現的頻率與出現的篇數,都是和Data Mining處理技術很不同的地方。課後我在網路上看到有人利用Text Mining技術,擷取與選舉相關的網路資料,將內容分析並將文字情緒轉換成分數,經由加權統計,以其分數預測最後選舉結果,該次測試準確率高達約86%,另類的民意調查,蠻有意思的,有興趣的同學可以看看喔。 http://opview-eland.blogspot.tw/2012/06/text-mining.html

週一, 2013/08/26 - 19:33
#17
JeffChu
JeffChu's 的頭像
Offline
一般會員
已加入: 2013/07/03
N014020007 朱明中 心得

這次是第一次上張老師的課,對老師上課的方式印象深刻,雖然自己的英文並不好,但老師也沒有給予我們太多壓力。

之前自己有研究一下Data Mining的內容,對一些演算法有些印象,像是Bayes或是Clustering的演算法,但是對Text Mining沒有特別的研究,上了這次課程後才對Text Mining有些認識,之前在DB->DW的過程中有Data Cleaning的步驟,Text Mining則有Document preprocessing的步驟,接著資料進入DW之後,才會用DM的演算法進行分析,而Text Mining還需要做詞性分析和字根還原等步驟,才能分析出想要的結果,而Text Mining在每個步驟中所做的分析,都會用到卡方分配等統計分析或是語言學上的知識進行確認,以提升結果的可信度。

Text Mining在大量文件中的分析十分有用,由一堆現有的文獻中分析出想要的重要文字或是語句等,會有利於發掘出未知的題目或是領域,還能運用在 Web 的文件分析上。

週一, 2013/08/26 - 18:45
#18
xisrootchen
xisrootchen's 的頭像
Offline
一般會員
已加入: 2013/06/18
N014020001 陳涵婷

各式各樣多種類的文字如果未經整理,會令人覺得資訊過於雜亂無章,無法有效的被利用。文字的資料通常是以半結構化(或非結構化) 的形式來儲存。文字探勘的工作包含資訊擷取、文字分類、文字分群、文字摘要,以及透過探勘的技術在文字上擷取出隱藏性、有潛在價值的主題或知識。

 

整合不同資訊領域的技術,像是資料探勘技術、資訊檢索、資訊萃取、機器學習等。使用不同的分類器,會讓探勘出來的結果有很大的不同;而統計分析在整個文字探勘的作業裡頭則佔據相當重要的角色。

 

以知識發掘的過程來解釋,就是:實際資料→資料整合→資料清理→資料轉換→資料減少→架構良好的資料。只有參考正確的分析資料才能整理出正確的知識。

 

關於EC ONE ECONE-top-right.png