保藏本站
《上海交通大学》 2014年
保藏 | 手机翻开
二维码
手机客户端翻开本文

依据语义网络与大数据发掘的源码查找引擎

胡翔  
【摘要】:跟着计算机科学技能的快速开展,大数据发掘已经成为计算机界最抢手的论题之一。大数据发掘之所以引起广泛的重视和运用,其原因在于通过高效及牢靠的数据剖析办法,得以使剖析者从海量数据中提取有价值的信息成为可能,协助人们获取以往剖析有限数据所无法获取的内容。跟着开源项目保管服务如Source Forge,Google Code,Github具有越来越多的老练项目,使得获取许多代码风格杰出的源码成为可能,因此在海量具有强语义信息源码的基础上结合天然言语的剖析办法进行大数据剖析,由用户供给天然言语信息,通过剖析然后引荐可用代码具有极高的研讨价值以及运用价值。关于传统的源码引荐,第一种是在项目范围内通过语义剖析定位相关源码。第二种是在海量源码中进行关键字匹配定位。第一种首要限制在当前项目中,无法依据用户目的在海量源码中定位用户想要的功用。第二种办法只需用户供给正确的关键字理论上能够供给一切可用的源码,但其问题有三,首要通过单个关键字匹配的代码片段过多,多个关键字匹配的代码片段又过少,其次适当大部分的代码运用缩写无法与用户输入匹配,再次大部分代码是接口或声明,无法找到真实有意义的代码片段。如Github上的关键字匹配查找功用就具有以上三点问题。针对以上问题,本文提出了依据海量源码的剖析与查找办法。编码标准杰出的开源项目代码中,标识符都具有清晰的语义信息。通过对源代码进行程序剖析,能够得到标识符间的依靠联络。而源码的标识符通过本文的剖析办法能够被解析成一组天然言语词素token,通过本文供给的输入规矩,用户的输入为具有结构性的天然言语token组,token组与变量标识符构成相关,token的结构信息与变量间的运用联络构成相关,变量标识符与其地点代码构成相关,然后使得从结构化的用户天然词素输入组进行源码查找成为可能。本文从剖析源码的变量间运用联络下手,结合标识符的语义信息,提出一种依据天然言语的源码查找办法。首要,通过开源项目保管网站爬下海量源码,本文运用Java言语作为首要爬取目标。其次,通过上下文语义剖析,将源码中的标识符拓宽为完好的单词组token。之后通过源码运用剖析,树立变量与变量之间的运用联络,一起引进语义网络联络标识符拓宽后的单词的近似度。如此便树立了具有天然语义联络的token语义网络与程序言语运用联络的标识符网络。通过指定格局的用户输入:{参数关键词,进程关键词,成果关键词},以结构化信息在海量数据中准确定位符合要求的源码。最终,本文对提出的办法和规划完成进行了试验验证,通过不同难度的源码查找用例,测验查找时长,依据不同用户的反应测验查找成果的准确性。通过试验验证,本文提出的查找办法能够满意大部分用户输入用例。
【学位颁发单位】:上海交通大学
【学位等级】:硕士
【学位颁发年份】:2014
【分类号】:TP391.3

【类似文献】
我国期刊全文数据库 前10条
1 蒋忠平;;用日子源码激活语文教育[J];小学教育研讨;2017年26期
2 ;m88明升[J];现代电子技能;2010年19期
3 晓岩;我国第一个嵌入式移动数据库源码发布[J];我国科学院院刊;2000年06期
4 马刚,张民强;计算机专业“源码剖析”实践教育形式的讨论[J];试验室研讨与探究;2005年05期
5 Robert Cravotta;;打破窘境的敞开式源码开发渠道[J];电子规划技能;2004年07期
6 侯捷;;上穷碧落下黄泉 源码追寻经验谈(上)[J];程序员;2002年04期
7 侯捷;;上穷碧落下黄泉——源码追寻经验谈 下[J];程序员;2002年05期
8 田维莲;羊巍;武晋民;;源码级代码部分自复原战略一种简略完成[J];电脑编程技巧与保护;2012年12期
9 肖明;杨楠;;依据内容剖析法的网上考试体系源码研讨[J];考试研讨;2010年04期
10 赵香;耿锐;黄光红;;C言语源码级调试器的规划与完成[J];计算机与现代化;2011年05期
我国重要会议论文全文数据库 前1条
1 蔡尧;王祖林;;依据8051IP核的源码剖析及研讨[A];全国第十届信号与信息处理、第四届DSP运用技能联合学术会议论文集[C];2006年
我国重要报纸全文数据库 前10条
1 本报记者 吉雪娇;“蓉生”企业逆势扩围 源码年代7月登陆深圳[N];金融出资报;2017年
2 本报记者 吉雪娇;或许你读了许多书,我来教你怎样交兵[N];金融出资报;2017年
3 本报记者 吉雪娇;互联网人才战打响 源码年代建立供需桥梁[N];金融出资报;2017年
4 本报记者 吉雪娇;源码年代给出的进步教育质量之道[N];金融出资报;2017年
5 ;Sun将揭露StarOffice源码[N];我国计算机报;2000年
6 迪文;Sun对揭露Java源码左右为难[N];我国计算机报;2004年
7 ;Sun敞开Solaris源码?[N];计算机国际;2002年
8 ;Microsoft向政府供给Windows源码[N];计算机国际;2003年
9 应明;从同享源码看软件流转[N];我国计算机报;2001年
10 迪文;BIOS终将被Tiano源码替代[N];我国计算机报;2004年
我国博士188bet全文数据库 前1条
1 王艳;源码不知道类软件能耗评价技能研讨[D];我国科学院研讨生院(长春光学精密机械与物理研讨所);2012年
我国硕士188bet全文数据库 前10条
1 胡翔;依据语义网络与大数据发掘的源码查找引擎[D];上海交通大学;2014年
2 郭明;MapReduce源码剖析及功能改善[D];湖北大学;2015年
3 肖锋;源码审阅技能中的词法剖析研讨[D];西安电子科技大学;2009年
4 谷凤伟;依据Makefile文件依靠的源码剖析东西规划与完成[D];南京大学;2016年
5 王彦璋;面向源码的功用定位技能研讨[D];哈尔滨工程大学;2016年
6 褚蕾;依据静态源码剖析的软件安全测验技能研讨与完成[D];电子科技大学;2010年
7 齐俊鑫;针对Java Web运用的源码缺点检测技能研讨与完成[D];北京邮电大学;2017年
8 陈亮;依据Web的C言语源码级及汇编级调试器[D];电子科技大学;2016年
9 崔海森;Repetier-Host源码剖析与二次开发[D];西安电子科技大学;2014年
10 江威;Android运用无源码调试技能研讨[D];电子科技大学;2014年
我国知网广告投进
 方便付款方法  订货知网充值卡  订货热线  协助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026