《可讀性分析在閱讀的應用》
國立台灣科技大學數位學習與教育研究所 曾厚強教授
在說明可讀性分析在閱讀的應用前,你是不是很好奇什麼是可讀性啊?其實可讀性(Readability)指的是閱讀的東西能夠被你理解的程度(Dale
& Chall, 1949; Klare, 1963,
2000)。回想一下,你過去是不是有讀過很難的書或文章。讀了老半天卻不知道它想表達什麼,這就代表這個閱讀的材料對你而言可讀性是很低的。這不但挫折、無聊,也覺得有些浪費時間是吧。
『唉~
好麻煩!如果事先跟我說哪本書我比較容易看得懂,那我就不需要浪費時間了啊』。但如果我跟你說,有神奇的公式可以自動的分析出文章或書籍的難度,你會不會覺得很酷?!這樣子你就可以很方便根據你的就讀年級去挑選出的書來進行閱讀了。而這個神奇的公式就稱之為可讀性公式。事實上,可讀性公式相關研究相當的早。在1923年,Lively和Pressey就發表了「A
Method for Measuring the ‘Vocabulary Burden’ of
Textbooks.」以探討文本的難度。時至今日,超過90年的光陰歲月。文本可讀性的研究依舊蓬勃發展,許多國家都進行屬於自己語言的可讀性的研究(美國:Graesser
et al., 2004; Pitler & Nenkova, 2008;法國:Todirascu et al., 2013;
Dascălu, 2014;瑞典:Pilán, Volodina & Johansson, 2014;德國:Vor Der Brück
& Hartrumpf, 2007;台灣:Chen, Chen & Cheng, 2013; Sung et al.,
2016;日本:Sato, Matsuyoshi & Kondoh,
2008),也把可讀性公式用來評估不同領域文本的可讀性(生物:Belden & Lee, 1961;健康教育:Freimuth,
1979;商務:Razek & Cone, 1981;經濟學:McConnell, 1982)。由此可見,文本可讀性的研究廣受世界各國的重視。
如今,受益於機器學習、自然語言處理、資料科學…等等快速發展,可讀性模型的發展日益複雜。以本團隊所開發的可讀性模型為例,除了要求模型準確度的提升外,也朝向能夠產生回饋資訊的目標前進。換句話說,可讀性模型不但能準確的評估出文本的難度來促進適性閱讀外,還能說明之所以評估這樣子的難度是因為什麼樣的因素所造成的。而這些回饋資訊對於研究人員、內容創作人員都能產生相當大的助益。舉例而言,作者所創作的內容假定是給國小三年級的小朋友進行閱讀。然而,在內容創作的時候,難免會有用字遣詞或文法結構不小心超出受眾的閱讀能力(例如:難字詞用的太多,複雜語法的句子用得太過於密集),導致文本有過於困難的情況發生。此時,本團隊便可以提供客觀的統計資訊,說明文本有哪一些內容對於國小三年級而言是比較困難的。如下圖1所示,本團隊列出該篇文章的難字詞數為208,而此難字詞的數量明顯高過於本團隊所統計正常三年級文章平均難字詞的數量。而作者可依據此回饋資訊來做為內容修正的參考,讓文章可以更加貼近自己原先設定的目標客群。
此外,對於其他領域的研究人員來說,也可以進一步探討文章可讀性對於研究議題的影響。例如,手術同意書可讀性對於醫療滿意度的影響。成藥說明書的可讀性對於用藥安全的影響。這些都是讓可讀性分析在閱讀的應用上,不再只是適性閱讀的範疇,而是可以更加深入的去探討文字對於日常生活中不同層面的影響,讓生活可以更加美好。
(附圖)回饋可讀性資訊給研究人員、內容創作人員
參考文獻
Belden, B. R., & Lee, W. D. (1961). Readability of biology textbooks
and the reading ability of biology students. School Science and
Mathematics, 61(9), 689-693.
Chen, Y. T., Chen, Y. H., & Cheng, Y. C. (2013). Assessing Chinese
readability using term frequency and lexical chain. International Journal
of Computational Linguistics & Chinese Language Processing, 18(2),
1-18.
Dale, E., & Chall, J. S. (1949). The concept of readability. Elementary
English, 26(1), 19-26.
Dascălu, M. (2014). Readerbench (2)-individual assessment through reading
strategies and textual complexity. In Analyzing Discourse and Text
Complexity for Learning and Collaborating (pp. 161-188). Springer, Cham.
Freimuth, V. S. (1979). Assessing the readability of health education
messages. Public Health Reports, 94(6), 568-570.
Graesser, A. C., McNamara, D. S., Louwerse, M. M., & Cai, Z. (2004).
Coh-Metrix: analysis of text on cohesion and language. Behavior Research
Methods, 36(2), 193-202.
Klare, G. R. (1963). The Measurement of Readability. Ames, Iowa: Iowa State
University Press.
Klare, G. R. (2000). The measurement of readability: useful information for
communicators. ACM Journal of Computer Documentation (JCD), 24(3), 107-121.
Lively, B. A., & Pressey, S. L. (1923). A method for measuring the
vocabulary burden of textbooks. Educational administration and supervision,
9(7), 389-398.
McConnell, C. R. (1982). Readability formulas as applied to college
economics textbooks. Journal of Reading, 26(1), 14-17.
Pilán, I., Volodina, E., & Johansson, R. (2014). Rule-based and machine
learning approaches for second language sentence-level readability. In
Proceedings of the ninth workshop on innovative use of NLP for building
educational applications, Baltimore, Maryland, pp. 174-184.
Pitler, E. & Nenkova, A. (2008). Revisiting readability: a unified
framework for predicting text quality. In Proceedings of the Conference on
Empirical Methods in Natural Language Processing (EMNLP ’08). Association
for Computational Linguistics, Stroudsburg, PA, USA, 186–195.
http://dl.acm.org/citation.cfm?id=1613715.1613742
Razek, J. R., & Cone, R. E. (1981). Readability of business
communication textbooks-an empirical study. Journal of Business
Communication, 18(2), 33-40.
Sato, S., Matsuyoshi, S., & Kondoh, Y. (2008). Automatic Assessment of
Japanese Text Readability Based on a Textbook Corpus. In Proceedings of the
International Conference on Language Resources and Evaluation (LREC),
Marrakech, Morocco, pp. 654-660.
Sung, Y. T., Chang, T. H., Lin, W. C., Hsieh, K. S., & Chang, K. E.
(2016). CRIE: an automated analyzer for Chinese texts. Behavior Research
Methods, 48(4), 1238-1251.
Todirascu, A., François, T., Gala, N., Fairon, C., Ligozat, A. L., &
Bernhard, D. (2013). Coherence and cohesion for the assessment of text
readability. Natural Language Processing and Cognitive Science, 11, 11-19.
Vor Der Brück, T., & Hartrumpf, S. (2007). A semantically oriented
readability checker for German. In Proceedings of the 3rd Language &
Technology Conference, Poznań, Poland, pp. 270-274.