广荣科技中文医疗问答数据集

Chinese medical Q&A data set of Guangrong Technology(GR-CMQ&Ads)

项目挑战

  • 大规模医疗数据集的收集和清洗工作是一个极为耗时且繁琐的过程。医疗数据的敏感性和多样性可能导致数据获取的困难,而数据的质量对于构建有效的模型至关重要。
  • 目前现有的工作主要集中在英文医疗数据集上,因此基于中文医疗数据集进行基准测试需要耗费大量时间和资源,需要重新复现、训练以及评估现有模型的适用性和性能。
  • 针对该数据集进行预训练大规模模型,并与通用模型进行比较需要庞大的计算资源和时间投入,这可能是项目中的另一个重大挑战。

项目意义

  • 建立基准测试数据集和开源预训练语言模型,为中文医疗领域提供强有力的基准线,促进更多研究和工作。
  • 构建大型中文医疗问答数据集有助于自动医疗问答平台的发展,提高问诊效率和准确性,减少症状相似性引起的重复回答和误诊漏诊。
  • 该项目规模巨大,可作为检索领域评估的重要参考数据集,推动相关工作发展并提升评估准确性和全面性。
  • 构建中文医疗数据集有助于提高医疗问答系统的普适性,为更广泛的用户群提供便捷和准确的医疗信息服务。

数据集构建

  • 在线诊疗:

问答类数据:120000条问题权威问答,226265条医生回答;

  • Chinese medical dialogue data 中文医疗问答数据集:

共计484847条数据,其中:

男科:77130个问答对

内科:132223个问答对

妇产科:93326个问答对

肿瘤科:42699个问答对

儿科:68225个问答对

外科:71244个问答对

数据集概览

数据集文本格式

`{"_id": "01-1704633", "source": "meddial", "conversation": [{"role": "user", "content": "足部骨折。你好大夫,谢谢您百忙中的时间。请问骨折对位可以吗?内侧契骨是稍有错位吗?"}, {"role": "assistant", "content": "您好,我很高兴能为您提供帮助。根据您的描述,骨折的对位情况还可以。但是,为了更准确地评估情况,我是否可以看一下术前的片子呢?"}, {"role": "user", "content": "这是图片。您好毛大夫,谢谢您的回答。请问内侧契骨那是稍有错位吗?"}, {"role": "assistant", "content": "非常感谢您提供的图片。根据图片显示,内侧契骨确实有轻微的错位。这种情况下,我们可以采取一些措施来帮助恢复骨折的对位。"}, {"role": "user", "content": "手术已经完成几天了。"}, {"role": "assistant", "content": "了解了,手术已经完成几天了。在手术后的这段时间里,您需要注意保持休息和定期进行复查。同时,遵循医生的建议进行康复训练,这对于恢复骨折的对位非常重要。如果您有任何不适或疑问,请及时与我们联系。"}]}`

_id: 数据集编号

conversation:问答对

role:角色,user表示用户,assistant表示系统

content:文本内容

数据集获取方式

联系我们:    chenbinbin@guangrong-tech.com

合作伙伴

北京大学
北京大学
北京大学第六医院
北京大学第六医院
英国利物浦大学
英国利物浦大学
英国银行
英国银行