Apache的临床文本分析和知识提取系统(cTAKES)是从电子病历的临床自由文本信息抽取一个开放源代码自然语言处理系统。它处理临床笔记,确定各类不同的字典,包括统一医学语言系统(UMLS)临床命名实体 – 药物,疾病/病症,体征/症状,解剖部位和程序。每一个命名实体的文本范围,本体映射代码,学科(患者,家属等)和上下文(否定/不否定,有条件的,通用的,一定的把握)的属性。一些属性被表达为关系的临床病症(locationOf关系),例如位置或临床病症(degreeOf关系)的严重性。
阿帕奇cTAKES是使用Apache UIMA的非结构化信息管理架构工程框架和Apache OpenNLP自然语言处理工具包构建的。它的成分是专门为临床领域出多样化的手动注释的数据集的训练,以及创建可以由临床决策支持系统和临床研究利用丰富的语言和语义标注。 cTAKES已被应用于各种用例在生物医学,例如表型的发现,转化科学,药物基因组学和药理学的域。
阿帕奇cTAKES采用了一些基于规则和基于机器学习的方法。阿帕奇cTAKES组件包括:
句子边界检测
标记化(基于规则的)
形态正常化
词性标注
浅层分析
命名实体识别
字典映射
语义分型是基于这些UMLS语义类型:疾病/病症,体征/症状,解剖部位,程序,药物
断言模块
依赖解析器
选区解析器
语义角色贴标机
共指解析器
关于提取
药品简介模块
吸烟状况分类
cTAKES的目标是成为一个世界级的自然语言处理系统在医疗保健领域。 cTAKES可以在一个伟大的各种检索和用例的使用。它旨在是模块化和可扩展的信息模型和方法的水平。该cTAKES社区是通过使用最先进的技术和新颖的研究致力于最佳实践和R&D(研究和开发)。我们的想法是快速翻译表现最好的方法分为cTAKES代码。
Apache cTAKES 3.2.0 发布,此版本现已提供下载。主要更新内容如下:
Bug 修复
[CTAKES-63] – exception formed by malformed email address
[CTAKES-121] – cTakes distribution zip includes ctakes-resources-umls2011ab…jar in lib/
[CTAKES-263] – OpenJDK6: Out of memory error on CVD default example
[CTAKES-276] – Error grabbing Grapes — [unresolved dependency: jwnl#jwnl;1.3.3: not found] from parser.groovy script
[CTAKES-281] – JdbcCollectionReader throw SQLException on empty input row from external param file
[CTAKES-284] – XML preamble must come before license header
[CTAKES-288] – Severity not set for DiseaseDisorderMention
[CTAKES-290] – bodyLocation not being set for diseases or signs/symptoms from LocationOfTextRelation
[CTAKES-296] – add ctakes-web-client into sandbox
[CTAKES-298] – Maven artefacts are missing dependency parser models
改进
[CTAKES-46] – ctakes running problem (run cvd – ClassNotFoundException)
[CTAKES-84] – Create Regression Test Suite
[CTAKES-197] – Upgrade cTAKES to Java 7
[CTAKES-224] – Common Type System – Add field to save preferredText in IdentifiedAnnotation
[CTAKES-268] – Fix SentenceDetector training with updated OpenNLP API
[CTAKES-269] – log4j.xml filenotfound
[CTAKES-274] – StatusAnnoator to populate IdentifiedAnnotation.historyOf field
[CTAKES-278] – UMLS user and password should be validated
[CTAKES-291] – New Improved Dictionary Lookup (2)
[CTAKES-292] – Integrate YTEX with cTAKES
[CTAKES-294] – Wrong PROJECT_ATTR in ctakes-core/resources/launch/UIMA_CVD–core.launch
[CTAKES-297] – Create Factory methods for default pipeline and components
[CTAKES-300] – Integrate improved dictionary lookup (ctakes-dictionary-lookup2)
新特性
[CTAKES-82] – Add ctakes-temporal module
[CTAKES-200] – Add HL7/CCDA Sections
任务
[CTAKES-286] – Deprecate pad-term-spotter
[CTAKES-301] – Create a cTAKES 3.2.0 Release