kl800.com省心范文网

朱正才:英语能力等级量表描述语量表化的可行性方案探讨


朱正才:英语能力等级量表描述语量表 化的可行性方案探讨
作者:朱正才,上海交通大学教授,博士生导师。 原文刊载于《中国考试》2015 年第 4 期。 摘要:本文在参照国内外语言量表研制经验基础上,结合我国的实际情况, 提出中国英语能力等级量表描述语量表化的一个可行方案。 对如何抽取学生语言 行为样本、 收集描述语和学生语言行为表现的匹配数据、设计带锚题的描述语调 查问卷等提出解决方法,以期为国家外语能力测评体系建设提供智力支持。 关键词:外语能力测评体系;英语能力等级量表;描述语量表化 1 引言 英语能力等级量表描述语量表化是英语能力 等级量表研制的关键环节,直 接关系到量表的科学性和可操作性。本文在主要参照《欧洲语言共同参考框架: 学习、教学、评估》(CEFR)等世界著名语言能力量表研制和国内外众多语言能 力标准制定经验的基础上, 结合我国的实际情况,尝试对中国英语能力等级量表 描述语的量表化提出一整套解决方案, 以期为国家外语能力测评体系建设提供智 力支持。 2 描述语的分类和能力等级确定 描述语量表化的基本程序是:第一步,描述语 的撰写者、收集者或者改写 者在讨论的基础上,凭经验确定描述语的分类和能力等级;第二步,对描述语广 泛征集各方意见,进行问卷调查和调查数据的分析;第三步,综合调查数据的分 析结果以及专家意见,最终确定每条描述语适合的类别以及能力等级。 2.1 抽取有代表性的学生语言行为样本 心理学的“能力连续统”(Continuum)假设认为, 人的任何一种心理特质 (包括语言能力),从总体上看,其分布都是连续的,从极端的无能到完美的熟 练,呈现一种正态分布形态。中国英语学习者的英语能力也应该符合这个假设: 从低端的、 很有限的英语能力, 到高端的专业翻译能力, 中间是连续的正态分布。 描述语量表化的第一步需要有一个足够大的、 有代表性的学生语言行为样 本。如果能从中国英语学习者(或使用者)总体中抽取一个很大的样本,并且使

用科学的抽样方法,那么,这个样本的代表性就会很高。这样,就有可能通过这 个样本对中国英语学习者的英语能力表现进行全面而细致的描述验证。 首先,中国英语能力等级量表的适用对象主要 是中国教育系统的英语学习 者, 故可以在中国各级各类学校中“分层随机”地抽取学生样本,其他英语教育 系统和英语自学群体则只要抽取少量学生样本作为补充数据。 不同层级的学生组 成比例要符合两个原则:第一,在校学生数多的层级相应地要抽取更多的样本; 第二, 社会迫切需要描述其英语能力的学生层级也要抽取更多的样本,因为针对 这部分群体相应的描述语也会更多。 如何确定合适的样本大小呢?这主要看项目 的真实需要和可行性,两个方 面要做一个平衡。 假设需要数据验证的量表数目有 100 个,每个量表 9 个等级, 那 么,将形成 900 个交叉描述语网格。如果每个网格最后平均需要 2 条描述语(这 里参考了 CEFR 的经验,中国英语能力等级量表可以更多),则共需要 1800 条描 述语。再假设数据验证过程要淘汰大约 30%的描述语,那么,最终应该有 2 500 条左右描述语需要收集调查数据。接下来,将 50 条描述语组 成一份问卷(暂不考虑锚题),共产生 50 份问卷。 根据 IRT 多级评分模 型, 题目难度参数估计要求的一个比较低的样本容量是 100 人,按照这个最低要 求每份问卷要调查 100 人, 则至少需要 5000 名学生。 这就是样本量的一个下限, 实际执行时只能多不能少。 在抽取学生时要按照班级抽, 好、 中、 差兼顾, 比如一个市只抽 3 所学校, 一定要好、中、差各一所;抽 2 所学校时,好、差各一所;抽一所学校时,抽中 等的。在抽取班级时,同时要考虑英语任课教师,必须是连续 2 年以上负责该班 教学的有责任心的教师,因为填写调查问卷的是教师。在抽取学生时,建议参考 CEFR 中 North 的做法,要求教师先将自己“熟悉的学生”(也可能来自不同班 级) 按平时英语成绩和课堂表现从高到低排序, 然后再从中抽取 10~20 人 (其中: 差生 1~2 名, 中下 2~3 名, 中等 3~4 名, 中上 3~4 名, 最好学生 2~3 名) 。 不过, North 发现这样做, 得到的学生样本代表性也不是很好, 因为不完全随机。 但是, 如果不做这样要求,教师就倾向于只抽好学生,样本代表性会更差。 2.2 收集描述语和学生语言行为表现的匹配数据 有了学生语言行为样本,接下来要做的是将描 述语和语言行为“匹配” (Matching)在一起,也就是收集描述语和语言行为的匹配数据。目前,国际上 主要有三种做法:教师评判法、学生自评法和专家评判法。 (1)教师评判法:就是由最了解学生的任课教 师来评学生。教师了解所教 学生的英语能力行为表现, 能够比较准确地把描述语和每个学生的英语能力匹配 起来。笔者认为,中国英语能力等级量表应该主要采用这一方法收集数据。 (2)学生自评法:由学生自己评自己。这一方 法存在的问题是:第一,对 于小学生,他们还没有“自我感知能力”,而且还不一定看得懂描述语;第二, 学生撒谎,不会的也说会。因此学生自评数据的可靠性有问题,笔者建议中国英

语能力等级量表可少量收集自评数据作为效度研究的一个补充, 不能作为主要证 据。 (3)专家评判法:用文档、录音、录像等收集学 生的语言行为表现(包括 课堂表现、试卷、竞赛、答辩、演说等),专家通过观看这些资料完成描述语的 匹配。 这一方法的优点是: 第一, 专家有专业素养, 评判数据的可靠性高; 第二, 资料可以复制,允许多人反复评判,能显著提高描述语匹配数据的可靠性。但专 家评判法的缺点也是明显的, 收集学生的英语能力行为样本费力费钱,无法实现 大样本的数据收集。因此,笔者建议,中国英语能力等级量表可以少量收集这类 数据,作为大规模调查数据校验用。 2.3 设计带锚题的描述语调查问卷 2.3.1 科学与道德——量表效度研究的新视角 设计“描述语调查问卷”是描述语量表化的又一个关键环节。 如何将全部描 述语科学而合理地分配到不同的调查问卷中?先来看 North 在瑞士项目 1994 年 调查中的做法。North 先将能力等级和英语学习者群体进行了大致的关联,见表 1。针对每个不同层次学生所用的问卷,其所含的描述语是最适合其“目标学生 群体”的,在组卷时,要依据给描述语预设的三方面信息来分配它们,即描述语 的临时等级、描述语适合的目标群体以及描述语的难度。North 把全部 280 条描 述语分成 7 份问卷,每份问卷含 50 条描述语,含 10 道锚题。分配方案:口语任 务 24 条,理解 4 条,交互策略 7 条,口语质量 12 条,写作任务 3 条。7 份问 卷中,W1 和 W2 是平行问卷,T1 和 T2 是平行问卷,含平行锚题。不同等级问卷 之间交叉重叠少部分题目,即含垂直锚题,其中 B 与 W1 交叉,W2 与 T1 交叉, T2 与 I 交叉,I 与 E 交叉。

中国英语能力等级量表的问卷调查可基于上 述原理,设计 50 份问卷,每份 问卷 50~60 条描述语,含 10 道左右的锚题,可以分配为:听力 10 条,口语 8 条,阅读理解 10 条,写作 8 条,翻译 4 条,语言知识运用 5 条,语用知识运用 5 条, 可行方案见表 2。 其中同一个层级的是平行问卷, 含一组平行锚题, 如 A1-1 和 A1-2 是平行问卷;相邻层级之间是垂直问卷,含一组垂直锚题,如 A1-1 和

A2-1 交叉,A2-2 和 A3-1 交叉,A3-2 和 B1-1 交叉,B1-2 和 B2-1 交叉,B2-2 和 B3-1 交叉,B3-2 和 C1-1 交叉,C1-2 和 C2-1 交叉,C2-2 和 C3-1 交叉。

2.3.2 科学与道德——量表效度研究的新视角 描述语调查问卷可以通过互联网发送给教师,教师在网上填写。为保证调查 数据的数量要求, 同时保证被评学生有良好的代表性,问卷分发时应满足以下要 求:(1)每份问卷只评测对应的同一层级的学生;(2)每份问卷至少评 100 名学生。如果每位教师评 20 名学生,那么每份问卷就要至少被随机地分发给 5 位不同的教师;(3)每位教师至少要评完一份问卷(即用一份试卷分别评 20 名左右的学生)。如果时间精力允许的话,一位教师也可以评多份平行问卷。 此外,按照听、说、读、写、译、语言知识运用等 语言能力分类的描述语 应在同一个学生样本上完成问卷调查。这样,各类描述语的难度参数在经过等值 后,其量表零点在同一个位置上,即在被调查学生样本的能力均值上。这无疑会 给后面的量表等级划分带来极大的方便。否则,各类描述语得到的是相互独立的 量表体系,需要有一个把难度参数标定(Calibrating)到一个新的共同量表上 的环节,由于误差累积效应,会严重影响描述语难度参数的估计精度。 2.3.3 锚题组设计 “锚题”可以从描述语库内各位专家公认为 “好”的描述语中选出。平行 等值的“锚题组”含全卷 15%~20%的题量,无论是结构上,还是题目质量上,都 是所在问卷的代表性题目。 垂直等值的“锚题组”由高一级问卷中较易的 题和低一级问卷中较难的题 组拼起来, 难度在两个等级中间,结构上对上下两个层级问卷都要有一定的代表 性。

2.4 教师评判松紧度问题的解决方法 描述语与学生的语言行为表现的匹配程度通 常用“5 点里克特(Likert) 量表”评分, 用 0 表示这条描述语对某个学生的语言行为表现是不适合的,学生 肯定达不到描述语所描述的水平; 用 4 表示学生的语言表现水平肯定达到或超过 了描述语所描述的水平; 用 2 表示描述语相对学生语言行为来说,是中等程度的 符合;1 介于 0 与 2 之间,3 介于 2 与 4 之间。 通常教师在对学生进行评定时, 对于描述语与 学生符合程度的判断, 在“松 紧度”(Severity)的把握上会有很大差异。每个人所评分数,会围绕分数量表 的中心点(即量表的参照点或者称零点)上下移动。为了不让这个零点在评分时 任意“飘移”(Floating),有必要对全体评分员进行培训,以统一评分的松紧 度。 North 的瑞士项目采取“看录像打分”的培训程 序,值得借鉴。瑞士项目 1994 年做的主要是“口语及互动量表”(含写作),因此 North 的录像中录的 是学生的口语表现,一个考官、两个水平相当的学生,共 11 个录像,不同录像 里面的学生水平都不一样。North 为每个录像编了一组描述语(5~7 条),不同 等级录像的描述语还有交叉的锚题(比如 2 题),这样全部录像里的描述语难度 参数后续就可以直接等值。North 要求参加描述语问卷调查的教师先浏览一遍描 述语,再看录像,同时试着给每条描述语评一个临时分数,看完录像后,反复核 对全部评分情况,看看是否都合适,个别学生成绩是否要修改。最后,确认自己 的评分。 在此程序基础上,North 提出两种解决教师评分 松紧度的方法:①行为观 察量表法(Behavior Observation Scales,BOS):根据录像培训所得数据可以 估计每个教师评分的松紧度参数, 教师无需改变自己的评分习惯就可以开始评分。 后续在估计每条描述语的难度参数时, 计算模型会根据评分教师的松紧度对描述 语的难度参数进行相应调整。②行为描述量表法(Behavior Summary Scales, BSS):经过培训后的教师,把自己评分的松紧度主动调整到一个给定的“统一 标准”上。显然,这里需要制定一个统一的评分标准。 很多研究都发现,BSS 量表法行不通。因为 师经过培训后,评分松紧度有 的改了,有的改不了,更多的评分员可能是第一天改了,第二天、第三天又回到 原来的习惯。因此,对于中国英语能力等级量表的评分松紧度问题,推荐用 BOS 量表法解决。 North 的 1994 年瑞士项目只包括口语与互动, 他大概认为作文与口语评分 具有共通性,因此在培训评分松紧度时,只用了口语录像资料。但如果是听力和 阅读描述语评分, 松紧度问题又如何解决呢?是否教师的评分松紧度在口语录像 培训上统一后,就可以自然地迁移到听力、阅读评分上去,还是松紧度本来就和 量表类别关系不大?此外,评分员评分时常有“趋中”现象,这是否也需要有一 个事后的统一调整呢?这些问题都有待进一步研究。 3

数据分析和描述语的最后审核 调查问卷的数据分析在两个层面上进行:一个 是数据的集中分析层面,一 个是数据的分组分析层面。集中分析要解决的问题有:首先,用模型分析的方法 剔除全部数据中不合适的描述语和不合适的学生数据;然后,分析描述语的分类 在各组之间是否有不合理的情况,全部描述语的难度估计和等值,全部学生的能 力水平参数估计和等值, 描述语的等级划分和量表的等级划分等。分组分析要解 决的问题有: 描述语的分类在组内是否有不合理的情况,描述语的难度估计及排 序,描述语的等级划分,其他与量表构念效度、描述语效度有关的诸多问题。 描述语分类验证的数据分析方法主要有:因子 分析法、聚类分析法、卡方 分析法、 IRT 模型分析等; 描述语分级验证的数据分析方法主要有: Facets 分析、 聚类分析法等,读者可参考相关专业文献。 综合全部数据分析结果,再加上专家的集体审 核意见,不合适的描述语将 会被大量删除,初步估计删除比例将在 30%左右。有些描述语,可能需稍作修改 便可留用。保留下来的描述语应该能力目标清晰、语言简洁易懂、语义结构符合 “能做描述”规范, 而且难度参数在整个能力量表上都有分布,而不是挤在某几 个等级里面。Alderson 和 North 都曾对 CEFR 的编制工作(包括描述语的审核和 分级等)做过细致的总结和评论,其中很多经验之谈,值得借鉴。


朱正才:英语能力等级量表描述语量表化的可行性方案探讨.doc

朱正才:英语能力等级量表描述语量表化的可行性方案探讨_人文社科_专业资料。朱正才:英语能力等级量表描述语量表 化的可行性方案探讨作者:朱正才,上海交通大学教授,...

语言能力_能做_描述的原理与方案_以CEFR为例_方绪军.pdf

“能做 ” 朱正才: 语言能力 描述的原理与方案:...1 面向不同人群的语言能力等级量表 描述语言能力并...3. 2 “能做 ” 描述语量表化的方法 为描述各...

制定全国统一的语言能力等级量表的原则与方法.pdf

制定全国统一的语言能力等级量表的原则与方法* 上海...朱正才 提要:目前,我国外语教学层次复杂,外语考试...的 参数,建立描述语库,并使语言能力的描述量表化。...

中国英语能力等级量表学习摘要-精简版_图文.doc

【语通心语】 【行业之声】投稿-北京运营中心-王荔 精简版 《中国英语能力等级量表》的出台及重点内容学习分享 一、 《中国英语能力等级量表》概述 2018 年 4 ...

中国英语能力等级量表_图文.doc

中国英语能力等级量表_英语学习_外语学习_教育专区。语 言 文 字 规 范 GF 0018-2018 中国英语能力等级量表 China’s Standards of English Language Ability ...

中国英语能力等级量表与英语学习_图文.ppt

概况 ? 本文旨在探讨量表在我国英语测评、 学习、教学中的应用,介绍我国外语 能力测评现状及需求调查结果,并对 中国英语能力等级量表如何服务于英 语学习提出了...

中国英语能力等级量表_图文.doc

中国英语能力等级量表_英语学习_外语学习_教育专区。语 言 文 字 规 范 GF ...中国英语能力等级量表对... 17人阅读 5页 免费 朱正才:英语能力等级量......

中国英语等级量表_图文.doc

中国英语等级量表_英语学习_外语学习_教育专区。语 ...朱 正才、张文霞、姜钢、于涵、吴莎、韩家勋、程...英语学习者和使用者的英语能力等级,描述了各等级的...

中国英语能力等级量表对接雅思、普思考试.doc

中国英语能力等级量表对接雅思、普思考试_英语学习_外语学习_教育专区。本文介绍了中国英语能力等级表,定义、内容、意义以及亮点,同时着重介绍了中国英语...

_语言测试社会学_评介_陈建林.pdf

第七篇文章为杨惠中、 朱正才、 方诸军所作的 ,...能力 ;采 “能做” 用 描述语分级描述语言能力; ...量表要进行有效性和可行性验证; 量表只提供分数解释...

儿童抑郁量表信度和效度评价_图文.pdf

张洪波 1, 胡海利 2, 陈琳 1, 张正红 1, 宇方 1, 李伟斌 1, 魏锁 3 摘要 : [ 目的 ] 评价儿童抑郁量表 (CDI ) 在中国中小学生中应用的可行性 。 [...

中国英语写作能力等级量表的典型写_省略_建_系统功能语....pdf

接收与产 活动( Bachman 1990 出的过程、 产出的结果等方面( 朱正才 2016a...[ 18] 朱正才. 英语能力等级量表描述语量表化的可行性方案探讨[ J] . 中国...

语言能力等级描述.doc

即能用语言完成怎样的交际任务,描述语一般是肯定的...面向用户的量表通常是对 语言能力进行综合性(holistic...朱正才:英语能力等级量... 暂无评价 6页 1下载券...

ABC在线英语帮你读懂首次颁布的《英语能力等级量表》,....pdf

ABC 在线英语帮你读懂首次颁布的《英语能力等级量表》,快来测试 4 月 12 日,我国首个中国《英语能力等级量表》由教育部、国家语委发布,此消息一出 ,证明我国...

《中国英语能力等级量表》或将代替英语四六级证书?.pdf

教育部考试中心主任姜钢介绍,根据教育部的要求,考试中心正 着手在中国英语能力等级量表的基础上研发英语能力等级考试,为减少重复考 试,提升考试系统性...

中国外语能力测评体系建设的实现路径与思考_吕生禄.pdf

语能 力测 评体 系建 设的 思想 一经 提出 ,...建设启动会暨中国英语能力等级 量表研制总体方案论证...财力 、 物力以及时效等可行性 问题 (practicality ...

第五章 测量与态度量表_图文.ppt

测量量表 ? 测量量表是一系列结构化的符号和数字,...(2)等级顺序量表(3)Q分类法 (6)语意差别法(7)...? 产品开发可行性研究: 肯定会买+可能会买的比例 ...

英语考试迎来重大改革,可能带给老师、学生的三大影响!.doc

林蕙青强调,在全球化背景下培养适应未来发展的创新人才,要求外语能力测评...中国英语能力等级量表除对听、说、读、写等技能进行描述外,构建了“语...

继语文教改后,英语又出新政!_图文.doc

一、《中国英语能力等级量表》是什么? 《量表》...了英语在实际使用中的逻辑和社交方面的正确性。...“抓词汇”,用简单的语 法去“拼词汇”描述...

四六级取消有误,英语考试将有重大改革是真.pdf

中国英语能力等级量表和英语能力等级考试,就是“外语能力测评体系”的重要组成部 分。 英语测试专家、广东外语外贸大学副校长刘建达介绍,中国英语能力等级...