iMMORTAL

Calculating Semantic Similarity between Academic
Articles using Topic Event and Ontology

Ming Liua,1, Bo Langa and Zepeng Gua
a State Key Laboratory of Software Development Environment, Beihang University, Beijing,
China

Abstrak
Menentukan kesamaan semantik antara dokumen akademik sangat penting untuk banyak tugas seperti deteksi plagiarisme, survei teknis otomatis, dan pencarian semantik.Studi saat ini kebanyakan berfokus pada kesamaan semantik antara konsep, kalimat dan fragmen teks pendek.Namun, pencocokan semantik tingkat dokumen masih didasarkan pada informasi statistik di permukaan, mengabaikan struktur artikel dan makna semantik global,yang dapat menyebabkan penyimpangan dalam pemahaman dokumen. Dalam tulisan ini, kami fokus pada masalah kesamaan semantik tingkat dokumen untuk literatur akademik dengan metode baru.Kami mewakili artikel akademik dengan acara topik yang memanfaatkan beberapa profil informasi, seperti tujuan penelitian,metodologi dan domain untuk menggambarkan secara integral pekerjaan penelitian,dan menghitung kesamaan antara peristiwa topik berdasarkan ontologi domain untuk memperoleh kesamaan semantik antara artikel.Eksperimen menunjukkan bahwa pendekatan kami mencapai kinerja yang signifikan dibandingkan dengan metode canggih.

Kata Kunci : Dokumen Kesamaan Semantik; Topik Acara; Ontologi;Analisis literatur ilmiah

1.Pengantar

Pencocokan semantik teks banyak digunakan dalam banyak aplikasi seperti terjemahan mesin, penjawaban pertanyaan otomatis, dan pencarian pengetahuan.Ini juga memiliki makna besar dalam deteksi plagiarisme, survei teknis otomatis, rekomendasi kutipan dan analisis tren penelitian dalam domain akademik.Masalah semantik teks, seperti semantik kata dan semantik kalimat telah mendapat perhatian yang meningkat dalam beberapa tahun terakhir.Namun, penelitian langka berfokus pada pencocokan semantik tingkat dokumen karena kerumitannya.Dokumen panjang biasanya memiliki struktur canggih dan informasi besar, yang menyebabkan kesulitan mengukur kesamaan semantik mereka,dan bahkan tidak ada set data publik yang tersedia sejauh yang kami tahu.

Unit teks besar terdiri dari unit teks kecil.Semantik dokumen panjang dapat diturunkan dari kombinasi semantik unit teks kecil.Banyak penelitian terbaru mengikuti pemikiran ini untuk memperoleh kesamaan semantik antara unit teks yang lebih besar.Sebagai contoh,kalimat kesamaan semantik dapat dicapai dari integrasi kesamaan semantik antara pasangan kata dari dua kalimat [1,2]. Selain semantik leksikal, fitur tingkat kalimat global juga dipertimbangkan untuk memperoleh kesamaan semantik antara kalimat [1-8].Namun, studi tersebut hanya fokus pada teks pendek oleh semantik leksikal dan fitur tingkat kalimat, yang masih jauh dari kemampuan kesamaan semantik tingkat dokumen.Studi yang berfokus pada kesamaan semantik antara dokumen relatif jarang.Metode yang ada dari kesamaan tingkat dokumen terutama berfokus pada pencarian informasi di tingkat permukaan daripada pemahaman tingkat semantik.Metrik kesamaan kesamaan konvensional [9-11] mengukur kesamaan dokumen dengan statistik atau morfologi kata, mengabaikan struktur dokumen dan makna kata-kata mereka,seperti model ruang vektor (VSM) [12]. VSM menganggap setiap dokumen sebagai kumpulan kata-kata dan mengukur kesamaan dokumen terutama berdasarkan pada kehadiran kata-kata, mis., ada dua cuplikan teks: "Jack meminjam buku dari guru" dan "Guru meminjam buku dari Jack".VSM menganggap kedua teks itu sama, tetapi sebenarnya keduanya memiliki makna yang berlawanan.Latent Dirichlet Allocation (LDA) [13] diusulkan untuk analisis mendalam dokumen berdasarkan perbedaan distribusi topik dibandingkan dokumen,yang dapat digunakan untuk mengukur semantik tingkat dokumen.Ada juga penelitian [14-19] yang mencoba menambahkan pengetahuan eksternal ke representasi dokumen, yang memperkaya konten dengan menambahkan istilah yang relevan dari sumber daya pengetahuan.Namun, metode ini masih mengalami masalah seperti kompleksitas komputasi dan kekeruhan representasional.Dokumen panjang berisi banyak transisi topik dan fokus berbeda, yang membuatnya sulit untuk menangkap semantik intinya.Namun, kami percaya bahwa topik-topik tersebut dalam sebuah dokumen adalah koheren, dan korelasi tersebut dapat diperoleh dengan analisis komprehensif tentang berbagai faktor dokumen.Oleh karena itu, kami merepresentasikan isu semantik inti dalam setiap dokumen sebagai peristiwa yang disebut Acara Topik (TE).TE adalah ringkasan terstruktur yang diekstrak dari setiap dokumen, yang berisi elemen-elemen kunci komprehensif dari dokumen tersebut.

Semantik inti dari artikel akademis adalah karya penelitian penulis.Kami membangun TE berdasarkan pada struktur artikel dan menggunakan berbagai bidang informasi seperti target penelitian, metodologi, kata kunci dan domain,yang secara integral dapat menggambarkan berbagai aspek pekerjaan penelitian. Oleh karena itu, kesamaan semantik antara makalah akademis dapat diukur dengan kemiripan TE, yang ditunjukkan pada Gambar.1. Untuk mencapai akurasi tinggi dalam penghitungan kemiripan TE, kami juga mengembangkan dan memanfaatkan ontologi gaya penelitian dan ontologi domain dalam domain akademik.Untuk membuat pendekatan kami lebih praktis, kami menyajikan metode bagaimana membangun TE secara otomatis.Untuk memverifikasi kinerja,kami membangun sebuah korpora evaluasi oleh anotasi manual menggunakan ACL Anthology Network (AAN) corpora [20].Eksperimen menunjukkan bahwa metode kami memperoleh kinerja luar biasa, dan hasilnya juga lebih sesuai dengan pemahaman manusia.Sebagai rangkuman, kontribusi utama dari pekerjaan kami adalah sebagai berikut:

—Kami mengusulkan gagasan untuk membangun acara topik sebagai representasi semantik dari dokumen panjang,dan memberikan metode umum untuk perhitungan kesamaan acara topik.—Kami mengembangkan dan membangun ontologi gaya penelitian dan ontologi domain untuk artikel akademik,dan dua sumber pengetahuan ini dapat memfasilitasi ekstraksi semantik dan prosedur pengukuran kesamaan dari topik acara secara efektif.—Kami menyediakan metode konstruksi TE otomatis ontologi tanpa data berlabel dalam domain tertentu,dan memanfaatkan metode ini dalam topik acara konstruksi dokumen linguistik komputasi.—Kami memperkenalkan korpus pencocokan semantik dokumen dengan anotasi berbutir halus untuk pertama kalinya,yang dapat berfungsi sebagai kebenaran dasar untuk evaluasi penelitian pencocokan semantik tingkat dokumen.Sisa dari makalah ini disusun sebagai berikut. Di Bagian 2, kami menjelaskan pekerjaan terkait. Bagian 3 menyediakan sketsa acara topik dalam domain akademik.Dalam Bagian 4, metode konstruksi otomatis topik acara diberikan. Dalam Bagian 5, kami menjelaskan metode komputasi kesamaan dari acara topik.Pada bagian 6, ontologi domain dan evaluasi korpora dalam domain linguistik komputasi dibangun, dan kemudian evaluasi eksperimental diberikan.Akhirnya, kami menyimpulkan makalah di Bagian 7.

2.Pekerjaan yang berhubungan

Penelitian kesamaan semantik tingkat dokumen adalah bidang baru yang muncul,yang dianggap dapat dicerahkan oleh konsep dan metode pencocokan semantik teks pendek.Semantik tingkat konsep adalah batu bata pemahaman semantik dokumen, dan kesamaan tingkat teks pendek adalah area yang paling aktif saat ini,yang menyoroti kesamaan semantik tingkat dokumen.Secara umum, kesamaan semantik tingkat konsep dapat diukur dengan metode berbasis pengetahuan dan metode berbasis corpus.Metode berbasis pengetahuan terutama memanfaatkan jalur antara konsep-konsep dalam sumber daya pengetahuan untuk menunjukkan kesamaan semantik mereka [21,22].Lin [23] dan Resnik [24] mengukur kesamaan semantik dengan rasio konten informasi dari pelanggan yang paling tidak umum dari kedua konsep.Alih-alih secara langsung mengeksploitasi jarak grafik dalam sumber daya pengetahuan, beberapa penelitian [25,26] vektor konsep yang diproduksi sesuai dengan seperangkat sifat ontologi untuk kesamaan konsep semantik.Metode berbasis Corpus mengasumsikan bahwa kata-kata dengan makna yang sama sering terjadi dalam konteks yang sama,Latent Semantic Analysis (LSA) [27] mewakili kata-kata sebagai vektor kompak melalui dekomposisi nilai singular (SVD) pada matriks corpus,dan GloVe [28] mengurangi biaya komputasi dengan melatih langsung unsur-unsur yang tidak nol dalam matriks corpus.Turney [29] mengukur kesamaan semantik dengan informasi timbal balik yang bijak.Web juga dapat dianggap sebagai kumpulan besar, dan Google Distance [30] menggunakan jumlah kata yang muncul bersamaan di halaman web untuk konsep kesamaan semantik.Mikolov [31] mengusulkan pendekatan embedding kata dengan jaringan saraf untuk menangkap kata semantik yang terjadi di jendela ukuran tetap.Tantangan untuk menentukan kemiripan semantik teks pendek adalah bagaimana beralih dari semantik tingkat kata ke semantik tingkat teks.Sebuah pendekatan langsung adalah menggunakan jumlah kemiripan kata-ke-kata yang berbobot, dan [1,2] menggunakan metode penyelarasan kata serakah untuk membentuk kesamaan kalimat semantik.Banea et al. [3] mengukur kemiripan semantik antara cuplikan teks yang dilengkapi dengan pengetahuan opini. D Ramage et al.[6] membuat grafik konsep menggunakan kata-kata dari masing-masing potongan teks, kemudian diukur kesamaan antara dua grafik konsep.Baru-baru ini, konferensi SemEval merilis tugas Semantic Text Similarity (STS) terutama untuk booming semantik teks pendek,dan model regresi diadopsi oleh sebagian besar tim [5,8] untuk memprediksi skor kesamaan, dan fitur leksikal dan fitur sintaksis dieksploitasi.Vektor paragraf [32], yang mirip dengan penyematan kata, juga diusulkan dengan jaringan saraf untuk mengukur kesamaan semantik antara teks-teks pendek.Penelitian yang terkait langsung dengan dokumen kesamaan semantik jarang dan tidak berkembang.Penelitian kesamaan tradisional seperti TF-IDF [12] mengkonversi dokumen menjadi vektor melalui penghitungan kata,dan mengukur kesamaan antar dokumen dengan kesamaan vektor.Artikel akademik dapat dianggap sebagai teks semi-terstruktur, yang berisi banyak anotasi terstruktur selain teks biasa.Kesamaan antara artikel akademik dapat diukur dengan bantuan informasi beranotasi. Martin et al.[33] menyatukan informasi terstruktur, seperti penulis dan kata kunci dengan langkah-langkah berbasis teks tradisional untuk kesamaan artikel akademik.[9-11] menganggap artikel dan kutipannya sebagai jaringan informasi. Kesamaan antar artikel beralih ke kesamaan dua entitas dalam jaringan informasi.Sayangnya, metode kesamaan konvensional di atas bertujuan pengindeksan dokumen di tingkat permukaan, daripada pemahaman dokumen tingkat semantik.Ada beberapa studi yang mencoba menambah pengetahuan eksternal untuk mencapai representasi semantik dokumen.[14,15,17] memperkaya konten dengan menambahkan istilah yang relevan dari sumber daya pengetahuan, yang bertujuan untuk meningkatkan kualitas hasil pengelompokan dokumen.[18,19] mengekstraksi tiga kali lipat relasi dari dokumen sumber dan menambahkan relasi entitas dari pengetahuan latar belakang untuk menyusun tiga grafik untuk pengayaan dokumen.Schuhmacher dan PonzeRo [16] mengusulkan model semantik berbasis grafik untuk mewakili konten dokumen,yang menambah pengetahuan pada representasi dokumen dengan menghubungkan entitas dalam dokumen ke basis pengetahuan DBpedia.Metode-metode tersebut memperoleh hubungan halus antara entitas dan menghasilkan model dokumen yang kaya pengetahuan, dan kesamaan semantik dihitung dengan jarak edit grafik.Namun, metode di atas adalah kurangnya interpretasi.Selain itu, ada entitas langka seperti orang, organisasi, dan nama tempat di dalam konten artikel akademik, yang membuat metode tersebut tidak cocok.Dokumen panjang seperti artikel akademis biasanya memiliki beberapa fokus dan sejumlah besar kata-kata.LDA [13] memperoleh keterkaitan semantik antara berbagai konsep melalui topik dan menganggap setiap dokumen sebagai distribusi atas serangkaian topik.Dengan demikian LDA dapat digunakan dalam analisis semantik dokumen panjang. Muhammad Rafi [17] mendefinisikan ukuran kesamaan berdasarkan peta topik dalam tugas pengelompokan dokumen.Dokumen-dokumen tersebut ditransformasikan ke dalam peta topik berdasarkan pengetahuan kode, dan kesamaan antara sepasang dokumen direpresentasikan sebagai korelasi antara pola-pola umum mereka.M. Zhang et al.[34] memperkaya dokumen dengan topik tersembunyi dari korpora eksternal, dan mengukur kesamaan dokumen dalam tugas klasifikasi teks dengan kesamaan distribusi topik.Sepanjang arah model topik, [35,36] mengukur kesamaan semantik antara dokumen berdasarkan divergensi distribusi topik,yang dapat dihitung dengan jarak Kullback-Leibler (KL), dan metode berbasis LDA cocok dengan tugas kesamaan semantik antara artikel akademik.

3. Topik Acara

Apa yang bisa digunakan untuk menyampaikan semantik utama dari dokumen panjang?Tugas ini rumit dan tidak akan mendapat manfaat langsung dari akumulasi semantik konsep masif.Untuk mendapatkan pemahaman global tentang suatu dokumen, perlu untuk mengekstrak informasi kunci dari sejumlah besar kata-kata dan membentuk semantik inti dari suatu dokumen.

Fig. 2. Structure of topic event

3.2. Gaya penelitian ontologi

Gaya kerja penelitian melibatkan semantik penting. Mereka dapat mencerminkan varians penelitian dalam kesulitan, cara dan jenis.Sebagai contoh, E1 dan E2 adalah dua karya penelitian sebagai berikut.

E1: Penulis menyurvei teknik-teknik seputar masalah tertentu dan merangkumnya sebagai artikel akademik.E2: Penulis fokus pada masalah tertentu dan mengusulkan solusi, proses dan hasil solusi ditulis sebagai makalah akademis.

Ada perbedaan yang berbeda antara E1 dan E2. E1 adalah makalah kelas Survey, sedangkan E2 adalah makalah kelas Solusi Issue.Secara umum, E2 memiliki lebih banyak inovasi dan kesulitan daripada E1, dan mereka memiliki nilai yang berbeda.E1 cocok untuk pemula untuk mendapatkan pengetahuan dasar, sedangkan E2 lebih cocok untuk menginspirasi orang yang berpengalaman.Oleh karena itu, jenis makalah akademik merupakan faktor penting dalam mengekspresikan semantiknya.Untuk mengungkapkan pengetahuan yang ditimbulkan oleh jenis gaya penelitian, pertama-tama kita mengembangkan kategori gaya dari peristiwa topik, yang dibangun pada Gambar. 3 dengan menggunakan anak didik [37].Setiap gaya yang pasti dari setiap karya penelitian ditunjukkan dan dijelaskan pada Tabel 1.Gaya ontologi penelitian berimplikasi pada hubungan antara gaya kerja penelitian yang berbeda, yang dapat digunakan untuk mengukur semantik antara berbagai penelitian akademis.

4. Pembangunan otomatis topik acara

4.1.Ikhtisar

Seperti yang ditunjukkan pada Gambar 2, kita perlu mengekstrak Target, Metodologi, Domain, Gaya, Kata Kunci dan Tanggal dari dokumen untuk menyusun acara topik.Pekerjaan saat ini untuk mengekstraksi representasi terstruktur dari peristiwa telah difokuskan terutama pada teks berita baru, yang memanfaatkan entitas berlabel,ekspresi dan nilai waktu terjadi dalam kalimat target sebagai item acara kandidat.Masalah ekstraksi peristiwa tradisional dianggap sebagai masalah klasifikasi dengan bantuan data berlabel.Namun, ada data berlabel yang jarang untuk melatih model ekstraksi, dan hampir tidak ada entitas berlabel dapat berfungsi sebagai kandidat terminologi dalam domain tertentu.Literatur akademik memiliki beberapa karakteristik yang menghadirkan tantangan dan peluang unik untuk pengenalan item acara.Ada banyak penjelasan terstruktur dalam artikel akademik seperti kutipan, penulis, tanggal publikasi, kata kunci dan jurnal,yang jelas untuk diekstrak dan dapat digunakan untuk memperkaya topik acara [38].Meskipun demikian, banyak item penting dari acara topik disembunyikan dalam konten artikel akademik yang tidak terstruktur.Pekerjaan utama ekstraksi adalah mengidentifikasi terminologi seperti target, metodologi, domain, dan gaya dalam konten artikel.Untuk mengatasi masalah kekurangan data acara berlabel, kami mengusulkan ontologi dan metode ekstraksi berbasis pola.

Artikel akademik biasanya memiliki topik dan tujuan yang jelas, dan ada banyak struktur sintaksis reguler dalam artikel akademik yang memberikan petunjuk untuk ekstraksi acara.Proses konstruksi acara topik dijelaskan pada Gambar. 4.Pertama, kami membagi artikel akademik menjadi bagian yang berbeda dan memilih bagian yang paling signifikan untuk ekstraksi peristiwa topik.Kemudian kami melakukan pemrosesan bahasa alami dasar (NLP) seperti pemisahan kalimat dan penandaan sebagian ucapan (POS) pada setiap kalimat yang terlibat di bagian yang dipilih.Ketiga, kami memilih semua frase nomina (NP) di setiap kalimat sebagai kandidat item topik acara serta daftar terminologi terbatas yang berasal dari ontologi domain.Setelah itu, argumen acara terbaik dipilih dari beberapa kandidat setelah pencocokan pola.Akhirnya, item acara yang diekstraksi dikirim ke ontologi domain untuk memperluas item semantik acara terkait.Secara umum, ontologi domain menyampaikan keterkaitan semantik antara terminologi domain,yang dapat memberikan terminologi serta hubungannya dalam domain tertentu.Dalam tulisan ini, ontologi domain dapat memberikan pengetahuan eksternal untuk pemahaman semantik dokumen, dan membantu prosedur konstruksi acara topik.

4.2.Pengenalan item acara

Secara rinci, kami membagi setiap artikel akademik menjadi beberapa potongan sesuai dengan garis besarnya, dan Judul, Abstrak,Bagian Pengantar dan Kesimpulan diyakini memiliki deskripsi global dari seluruh pekerjaan penelitian tanpa banyak detail yang tidak perlu.Kemudian kami mengidentifikasi kalimat yang terlibat dari bagian di atas dengan kata-kata pemicu.Kalimat yang tersirat dapat berisi item acara, dan kami menetapkan total 95 kata pemicu untuk ekstraksi item.Untuk menangkap kandidat item acara dalam kalimat yang terlibat, kami memanfaatkan ontologi domain dan beberapa proses NLP.Daftar terminologi yang berasal dari ontologi domain digunakan untuk menemukan item acara potensial.Namun, masalah utama lainnya adalah bagaimana menemukan banyak frasa yang tidak diketahui dalam artikel akademik baru.Untuk mengatasi masalah ini, kami melakukan penandaan POS pada setiap kalimat, dan kemudian menggunakan semua frasa kata benda sebagai kandidat item acara untuk menangkap frasa baru yang tidak diketahui.Pengakuan target dan metodologi Setelah memperoleh terminologi kandidat, langkah selanjutnya adalah untuk mengkonfirmasi kandidat mana yang merupakan item acara terbaik di setiap kalimat.Kami mengembangkan pola untuk ekstraksi Target, dan Metodologi.Pola penggalian terdiri dari pra-pola dan pasca-pola,yang merupakan pola sering terjadi di depan item acara dan pola sering terjadi setelah item acara.Beberapa pola ekstraksi Target dan metodologi ditunjukkan pada Tabel 2. Secara keseluruhan ada lebih dari 550 pola untuk ekstraksi Target dan Metodologi.Misalnya, kalimat yang terlibat "Dalam makalah ini, kami mengusulkan pendekatan pembelajaran mesin yang diawasi untuk ekstraksi hubungan" diidentifikasi oleh kata-kata pemicu "mengusulkan"dari bagian pengantar dari artikel akademik. Ini cocok dengan pola target sebelumnya, yaitu "pendekatan untuk".Dengan demikian, terminologi "ekstraksi relasi" dipilih sebagai target artikel ini.

Pengakuan gaya penelitian Kita dapat melihat bahwa artikel-artikel dari gaya penelitian yang berbeda memiliki karakteristik judul yang berbeda dari Tabel1.Banyak jenis artikel akademik dalam komputasi domain linguistik dapat didiagnosis berdasarkan judul makalah ini.Misalnya, setiap judul jenis Solusi Masalah berbeda, itu akan mulai dengan nama singkatan dari perangkat lunak mereka dan menghubungkan judul berikutnya dengan tanda baca ":"atau "-", mis., "TEXTRUNNER: Buka Ekstraksi Informasi Di Web", "URES: Sistem Ekstraksi Relasi Web Tanpa Pengawasan".Sebagian besar judul menampilkan kata-kata untuk membedakan gaya penelitian mereka, dan kami mengembangkan pola untuk mengidentifikasi gaya penelitian topik pada Tabel 3.

4.3.Ekspansi semantik berbasis ontologi

Banyak item dalam acara topik berkorelasi erat seperti tujuan dan domain penelitian, metodologi dan perangkat yang diadopsi,objek penelitian dan dataset.Secara umum, tujuan penelitian adalah masalah inti dari artikel akademik dan acara topik yang sesuai,dan domain tempat artikel akademik ditentukan oleh tujuan penelitiannya.Saat kami mengekstrak target artikel akademik, kami menggunakan ontologi domain untuk menginduksi domain miliknya.

Setelah mengekstraksi target penelitian, kesamaan semantik antara target dan setiap konsep domain yang telah ditentukan dihitung berdasarkan ontologi domain, seperti yang ditunjukkan pada Gambar.5 yang menggunakan Ontologi Linguistik Komputasi sebagai contoh ontologi domain.Konsep domain yang memiliki kesamaan semantik maksimal dengan konsep target dipilih sebagai domain dari artikel penelitian yang sesuai.

5. Perhitungan kesamaan acara topik

5.1.Kerangka umum

Karena acara topik dapat mewakili semantik dokumen,kesamaan semantik antara dokumen dapat dicapai melalui kesamaan antara acara topik.Dalam makalah ini, kami mendapatkan informasi yang disembunyikan di setiap dokumen melalui acara topik, dan memperoleh relevansi internal di antara konsep-konsep dari ontologi domain.

Dalam metode kami, untuk menghitung semantik inti makalah secara singkat, enam elemen utama dalam acara topik digunakan sesuai dengan karakteristik mereka, yaitu Target, Domain,Gaya, Metodologi, Kata Kunci dan Tanggal.Kami menggunakan ontologi topik acara untuk mengukur acara internal kesamaan antara berbagai jenis,dan ontologi domain digunakan untuk mengukur kesamaan semantik internal antara terminologi.Kami mengukur kesamaan acara topik dengan jumlah kesamaan elemen dalam struktur acara yang sesuai,dan juga dapat diperluas dengan metadata dan elemen lainnya untuk kesamaan acara topik yang lebih rinci.Kesamaan antara peristiwa topik E1 dan E2 didefinisikan dalam persamaan (1):

𝑆𝑖𝑚𝑇𝐸𝑠(𝐸1, 𝐸2) = ∑6 𝑖=1 𝑊𝑖 × 𝑆𝑖(𝐿1𝑖, 𝐿2𝑖) (1)

di mana wi adalah bobot elemen ke-i dalam acara topik, Si adalah fungsi kesamaan antara elemen ke-L1 dan L2.L1 dan L2 adalah dua peristiwa topik yang unsur-unsurnya didefinisikan sebagai L = {Target, Domain, Gaya, Metodologi, Kata Kunci, Tanggal}.Acara topik mengekstrak semantik inti dari setiap artikel akademik. Namun, makna item acara tidak dapat diukur dengan penampilan literalnya.Pengetahuan latar belakang seperti makna leksikal diperlukan untuk memahami semantik artikel.Untuk mendapatkan keterkaitan semantik internal antara berbagai terminologi,terminologi dalam acara topik seharusnya terkait dengan node konsep di basis pengetahuan untuk mendapatkan keterkaitan semantik mereka.Pada bagian berikut, kami akan memperkenalkan metode penghubung konsep dan pengukuran kesamaan barang semantik.

5.2.Penautan konsep ontologi domain

Untuk menghitung kesamaan internal antar terminologi,masalah penting adalah untuk menghubungkan terminologi yang diekstraksi ke posisi yang tepat di basis pengetahuan.Ada banyak sinonim dalam artikel akademik, dan banyak konsep dapat dideskripsikan oleh berbagai terminologi dalam makalah yang berbeda seperti "lintas linguistik pengambilan" dan "pencarian informasi multibahasa "," pemahaman teks "dan" pemahaman pesan "," pengakuan entitas bernama "dan" tagger entitas bernama ".Ketika kami membangun ontologi domain, kami memberi label semua sinonim yang diketahui dari setiap konsep dalam node untuk memfasilitasi penautan entitas.Banyak terminologi yang diekstraksi secara otomatis memakai akhiran dan awalan yang sepele, yang dapat menghalangi entitas untuk terhubung.Untuk mengatasi masalah ini, kami menggunakan jarak edit untuk mengukur kesamaan string dan mengenali variasi konsep yang sama.Karena ontologi kami dibangun untuk domain linguistik komputasi, dan semua konsep node diekstraksi dari domain corpus,kebanyakan terminologi akan menemukan posisi konsep ekstrak di ontologi domain. Kami pertama-tama membuat daftar terminologi untuk membentuk ontologi domain.Ketika sebuah terminologi yang diekstrak dari artikel akademis datang, jarak sunting dengan masing-masing terminologi dihitung.Node konsep dengan jarak edit minimum akan dianggap sebagai simpul terminologi.

5.3.Kesamaan item dari topik acara

Item-item seperti Target, Metodologi dan Domain adalah terminologi, dan kesamaan semantiknya dapat diukur dengan ontologi domain.Kesamaan semantik antara Gaya dapat diukur melalui ontologi gaya penelitian. Kesamaan Tanggal dapat diukur dengan intervalnya.Secara singkat, kesamaan item-item tersebut dalam peristiwa topik dapat diukur dengan metode berikut.

Kesamaan Gaya Penelitian Untuk mengukur perbedaan antara berbagai jenis pekerjaan penelitian, ontologi gaya penelitian yang dijelaskan pada Tabel 1 dapat digunakan.Kesamaan Gaya antara berbagai jenis peristiwa topik diukur mirip dengan metode Wu dan Palmer [22] berdasarkan ontologi gaya penelitian yang ditunjukkan pada Gambar.3,dan rumusnya adalah sebagai persamaan (2):

di mana Style1 dan Style2 berarti jenis dari dua peristiwa topik. LCS adalah pelanggan paling umum dari dua node gaya.Terminologi Similarity Konsep kesamaan semantik dapat diukur dengan basis pengetahuan.Kami mengevaluasi beberapa metode berbasis pengetahuan dan menemukan metode Wu dan Palmer [22] cocok untuk kesamaan konsep dalam domain ini.Isi target, Domain, Metodologi, dan Kata Kunci adalah kumpulan terminologi,yang dapat diukur dengan metode Wu dan Palmer berdasarkan ontologi domain atau metode berbasis kata embedding.Kesamaan konsep semantik berbasis ontologi diukur dengan persamaan (3):

di mana EC1 dan EC2 mewakili terminologi dalam acara topik.Ketika metode kesamaan konsep berbasis korpus digunakan untuk kesamaan semantik terminologi, persamaan cosinus antara vektor terminologi dapat digunakan.Kesamaan cosinus didefinisikan dalam persamaan (4):

Tanggal Kemiripan Masalah penelitian terus berkembang sepanjang waktu, dan peneliti akan fokus pada berbagai masalah ilmiah di setiap periode.Kami berasumsi bahwa artikel akademik yang memiliki tanggal penutupan akan lebih mirip, dan artikel akademik yang diterbitkan jauh dari satu sama lain akan memiliki poin yang kurang umum.Dengan demikian, kesamaan tanggal dapat diukur dengan interval waktu. Tahun dan bulan digunakan untuk menghitung kesamaan antara dua tanggal.Kami mendefinisikan rumus Tanggal Kesamaan adalah sebagai persamaan (5).

6. Evaluasi eksperimental

6.1.Konstruksi perusahaan

Ada beberapa dataset publik yang digunakan untuk mengevaluasi kesamaan semantik dari teks dan kalimat pendek, seperti MSPR [3], Michael D.LEE 50 corpus [7] dan SEMILAR corpus [5]. Namun, tidak ada teks dari set data yang lebih dari 200 kata, yang tidak dapat memvalidasi kesamaan semantik tingkat dokumen.Karenanya,kami membangun dataset kesamaan semantik antara dokumen menggunakan makalah akademik dalam domain linguistik komputasi. Satu set pasangan kertas dihasilkan dari AAN corpus [20].Pasangan kertas dianotasi oleh 2 tingkat dan 5 tingkat penjelasan sebagai kebenaran dasar.Setiap pasangan kertas ditandai sebagai 1 jika secara semantik serupa atau 0 jika berbeda dalam anotasi 2 tingkat.Dalam anotasi 5-tingkat, pasangan kertas ditandai oleh bilangan bulat mulai dari 1 hingga 5 sesuai dengan tingkat kesamaan semantik mereka.Jika mereka benar-benar sama dalam semantik, kesamaan antara makalah akan dijelaskan sebagai 5, dan jika mereka tidak ada hubungannya dengan satu sama lain, kesamaan dianotasi sebagai 1.Dua belas ahli dari lab kami memberi catatan dan silang memvalidasi koherensi 1021 pasang dokumen.Setiap pasangan kertas mendapatkan anotasi kedua oleh orang yang berbeda setelah anotasi pertama.Jika anotasi kedua sesuai dengan anotasi pertama, itu akan dijelaskan sebagai kebenaran dasar,kalau tidak orang ketiga akan membubuhi keterangan pada pasangan kertas untuk mendapatkan kebenaran dasar. Pada akhirnya kami mendapat korpus beranotasi dengan 1.021 pasangan kertas.Sekarang corpus bersifat publik, dan urlnya adalah: https://github.com/buaaliuming/DSAP-document-semantics-for akademik-papers / tree / buaaliuming-annotation.

6.2. Ontologi linguistik komputasi

Sumber daya pengetahuan umum seperti WordNet tidak dapat mencakup terminologi domain.Untuk menghitung kesamaan semantik antara terminologi, kami secara manual membangun ontologi domain untuk menyampaikan semantik di antara berbagai terminologi.

Konsep yang diekstrak dari AAN corpus [20] digunakan untuk membangun ontologi linguistik komputasi secara manual.Saat ini ontologi kami mencakup 1.165 node konsep dengan hierarki 9 kedalaman, yang akan diperluas terus-menerus di masa mendatang.Arsitektur Computational Linguistics Ontology (CL Ontology) ditunjukkan pada Gambar. 6. Hubungan utama antara konsep-konsep dalam ontologi adalah hyponymy.Sinonim dipertimbangkan dan dijelaskan dalam node konsep ontologi selama konstruksi.CL ontologi digunakan untuk mengukur kesamaan antara konsep domain linguistik komputasi.Sesuai dengan karakteristik domain linguistik komputasi, kami merancang ontologi sebagai tiga bagian, yaitu: Topik Penelitian, Infrastruktur dan Pendekatan Umum,dan setiap bagian diperkaya oleh node keturunan yang lebih rinci.Node General Approach mencakup metodologi umum yang digunakan dalam linguistik komputasi, seperti pembelajaran mesin, pencocokan pola, dan rekayasa pengetahuan, dll.Simpul Topik Penelitian mencakup proses bahasa mendasar, masalah penelitian, dan objek penelitian.Proses bahasa mendasar meliputi pemrosesan bahasa alami, seperti segmentasi kata, penguraian sintaksis, penandaan POS, lemmatisasi, dll. Infrastruktur node berisi toolkit umum, basis pengetahuan, korpora, dan organisasi di bidang linguistik komputasi.

6.3. Pengaturan eksperimen

Eksperimen dilakukan pada mesin DELL OptiPlex390, yang memiliki memori 8G dan CPU I5-2400.Selain peristiwa topik yang dikonstruksi secara otomatis, kami juga secara manual membuat anotasi peristiwa topik makalah akademik yang sesuai untuk kontras eksperimental.Metode berbasis LDA dipilih sebagai metode dasar.Ketika menghitung kesamaan semantik antara terminologi dalam peristiwa topik, metode LSA digunakan serta metode berbasis ontologi.Secara singkat, kami melakukan metode berikut.

LDA_2013 Metode berbasis LDA [36] pada 2013 adalah penelitian yang paling terkait dan dipilih sebagai metode dasar untuk kontras.Saat melakukan metode berbasis LDA, beberapa model LDA dengan parameter yang berbeda dilatih berdasarkan AAN corpus.Dalam hasil yang disajikan berikut, kami memilih model LDA dengan 200 topik untuk kontras, yang mencapai kinerja terbaik di antara model LDA yang berbeda dalam kondisi yang sama.TE_Onto metode kesamaan semantik TE dilakukan pada anotasi peristiwa topik emas, dan konsep kesamaan semantik dihitung oleh ontologi CL kami.AutoTE_Onto metode kesamaan semantik TE dilakukan pada peristiwa topik yang diekstraksi secara otomatis,dan kesamaan konsep semantik juga dihitung oleh ontologi CL kami.Metode AutoTE_Onto digunakan sebagai perbandingan metode TE_Onto untuk mengukur pengaruh ekstraksi peristiwa topik otomatis.

TE_LSA metode kesamaan semantik TE dilakukan pada anotasi acara topik emas,dan konsep persamaan semantik dihitung oleh kata vektor yang diproduksi oleh LSA.Metode LSA memperoleh setiap representasi kata dengan operasi SVD, dan kesamaan semantik antara terminologi ditangkap oleh kesamaan topik umum.Ketika metode LSA digunakan dalam perhitungan item TE, kami membuat term-by-document matrix pada seluruh corpus yang beranotasi.Metode TE_LSA digunakan sebagai perbandingan metode TE_Onto untuk mengukur efek dari Comptational Linguistics Ontology.AutoTE_LSA, metode kesamaan semantik TE dilakukan pada peristiwa topik yang diekstraksi secara otomatis,dan konsep persamaan semantik juga dihitung oleh vektor kata yang diproduksi oleh LSA.Bobot item TE Item utama acara topik adalah Target, Domain, Metodologi, Gaya, Kata Kunci, dan Tanggal, yang merupakan item penting pada Gambar. 2.Menurut pengalaman kami, target penelitian adalah masalah penting dalam setiap artikel akademik.Domain penelitian, jenis pekerjaan penelitian dan metode yang diadopsi dalam artikel akademik adalah aspek penting, yang merupakan karakteristik diskriminatif dari masing-masing pekerjaan penelitian.Sementara kata kunci adalah satu set deskripsi fuzzy kurangnya semantik yang pasti.Tanggal publikasi menyiratkan perbedaan usia teknologi, yang kurang diskriminatif dan tidak terkait langsung dengan berbagai pekerjaan penelitian.Kami mengatur berat item yang disebutkan di atas sesuai dengan kepentingannya, dan dalam percobaan kami, bobot item, yaituTarget, Domain, Gaya, Metodologi, Kata Kunci dan Tanggal masing-masing ditetapkan menjadi 0,3, 0,25, 0,25, 0,1, 0,05 dan 0,05.Metrik evaluasi Kami memilih korelasi Pearson untuk mengukur kualitas skor kesamaan semantik.Semakin besar korelasi Pearson, semakin berkorelasi skor yang diprediksi dan kebenaran dasarnya. Korelasi Pearson ditunjukkan dalam persamaan (6).

Dalam karya ini, X adalah skor kemiripan semantik yang diprediksi, dan Y menunjukkan nilai kesamaan semantik yang beranotasi. 𝑐𝑜𝑣 (𝑋, 𝑌) mewakili kovarian X dan Y.Nilai rata-rata 𝜇𝑋 dan resent mewakili variabel X dan Y; 𝜎𝑋 dan 𝜎𝑌 adalah standar deviasi X dan Y.Karena corpus kami memiliki anotasi biner dan anotasi lima tingkat, kami selanjutnya menetapkan ambang yang berbeda untuk memprediksi apakah dua dokumen mirip semantik.Baik Akurasi dan skor F1 dapat menjadi metrik evaluasi keseluruhan di samping korelasi. Akurasi ditunjukkan persamaannya (7).

Dalam persamaan (7), TP berarti jumlah pasangan dokumen yang diprediksi serupa yang sebenarnya adalah pasangan dokumen yang serupa.TN berarti jumlah pasangan dokumen yang diprediksi tidak sama dengan yang sebenarnya tidak sama.FP adalah jumlah pasangan dokumen yang diprediksikan sama, yang sebenarnya berbeda. FN adalah jumlah pasangan dokumen yang diprediksi berbeda yang sebenarnya serupa.Akurasi berarti kemampuan prediksi umum suatu metode, dan F-score berarti kinerja komprehensif dari daya ingat dan daya ingat. F-score ditunjukkan persamaannya (8).

6.4. hasil dan Diskusi

6.4.1.Korelasi Pearson

Untuk memverifikasi kualitas metode yang berbeda, kami menghitung korelasi Pearson tentang 1.021 skor kesamaan dengan kebenaran dasar manusia beranotasi.Perbandingan dengan baseline Hasil pada Tabel 4 menunjukkan bahwa metode TE berbasis ontologi kami memiliki keuntungan yang berbeda pada metode baseline, yaitu LDA_2013.Anotasi 5 tingkat memiliki tingkat kesamaan yang lebih rinci; dan skor korelasi dengannya lebih meyakinkan daripada skor korelasi 2 tingkat.Metode TE_Onto kami mencapai peningkatan 4,1% (relatif) dibandingkan metode baseline; ketika acara topik diekstraksi secara otomatis, metode AutoTE_Onto kami dapat memperoleh 5.8% (relatif) peningkatan dibandingkan metode baseline.

Dampak ontologi Metode TE_Onto kami berkinerja jauh lebih baik daripada berbasis LSA

Metode TE ， dan AutoTE_Onto bahkan menampilkan 22.Keuntungan 7% dibandingkan metode AutoTE_LSA ketika acara topik diekstraksi secara otomatis.Metode berbasis LSA mengukur kesamaan konsep konsep semantik oleh topik kata umum atau kata kejadian bersama,sedangkan metode berbasis ontologi mengukur kesamaan konsep semantik melalui pengetahuan yang akurat dalam ontologi.Hasil di atas menunjukkan bahwa sumber daya pengetahuan seperti ontologi domain sangat penting dalam pengukuran semantik dokumen.Dampak ekstraksi TE Skor korelasi metode kami pada peristiwa topik yang dibangun secara otomatis dan peristiwa topik beranotasi manusia sudah dekat.Performa metode kami dengan acara topik yang diekstraksi otomatis sebanding dengan acara topik emas yang dijelaskan oleh para ahli.Metode TE_LSA hanya menunjukkan sedikit keuntungan pada metode AutoTE_LSA,dan metode AutoTE_Onto bahkan berkinerja sedikit lebih baik daripada metode TE_Onto dalam korelasi anotasi 5 tingkat.Ini menunjukkan bahwa, metode ekstraksi berbasis pola dapat mengekstraksi informasi yang diperlukan dengan presisi yang tepat dalam domain tertentu,dan proses ekstraksi otomatis menghasilkan kinerja yang sebanding dengan anotasi manusia.

6.4.2. Akurasi dan skor F1

Akurasi dan skor F1 dapat menjadi metrik evaluasi umum di samping Korelasi.Akurasi menunjukkan kemampuan umum suatu metode untuk memprediksi hasil yang tepat;skor F1 adalah keseimbangan antara presisi dan daya ingat, yang menunjukkan kapasitas komprehensif dari metode ini.Dalam aplikasi praktis, ambang batas yang berbeda dapat ditetapkan untuk memprediksi apakah dua dokumen cocok semantik.Secara umum, kinerja terbaik di antara ambang yang berbeda dianggap sebagai faktor penting dalam evaluasi. Dalam percobaan berikut, ambang yang berbeda ditetapkan.Pasangan kertas dianggap serupa secara semantik jika skor mereka yang sama lebih besar dari ambang yang diberikan.Perbandingan dengan baseline Seperti yang ditunjukkan pada Gambar. 7 dan Gambar. 8, Akurasi metode TE kami selalu memiliki keuntungan yang berbeda atas metode berbasis LDA_ pada ambang yang berbeda.Skor F1 terbaik kami adalah 0,639, sedangkan skor F1 terbaik dari metode dasar adalah 0,536.Skor F1- dari metode AutoTE_Onto kami mengungguli LDA_2013 di sebagian besar ambang batas,dan skor F1- dari metode TE_Onto kami dengan peristiwa topik emas menunjukkan keunggulan dibandingkan metode baseline saat ambang kurang dari 0,75.

Dampak ontologi Kami membandingkan kinerja metode TE berbasis LSA dan metode TE berbasis ontologi. Seperti yang ditunjukkan pada Gambar. 9 dan Gambar.10, Akurasi terbaik dari metode TE berbasis LSA adalah 0,712, sedangkan Akurasi terbaik dari metode TE berbasis ontologi adalah 0,768.Metode TE berbasis ontologi berkinerja jauh lebih baik daripada metode TE berbasis LSA ketika ambang lebih dari 0,250.Singkatnya, metode TE berbasis ontologi berkinerja lebih baik daripada metode TE berbasis LSA, yang sesuai dengan hasil Korelasi Pearson pada subbab terakhir.Hasil-hasil tersebut menunjukkan bahwa ontologi memegang peranan penting dalam kesamaan semantik dokumen.

Diskusi Eksperimen di atas menunjukkan bahwa metode TE dapat menghasilkan kinerja yang jauh lebih baik secara umum. Skor kesamaan metode TE_LSA dan metode AutoTE_LSA berkisar dari 0.0 hingga 0,70, dan tidak ada hasil positif sejati ketika ambang di atas 0,70. Skor kesamaan tingkat rendah itu membuat skor TE metode F1 berbasis LSA tidak dapat dihitung.Artikel akademik biasanya memiliki konten panjang yang berisi banyak terminologi rangkap,dan seringnya terminologi dalam tren domain tertentu terjadi di banyak artikel domain. Selain itu, makalah akademik cenderung meninjau pekerjaan terkait.Metode berbasis LDA menentukan kesamaan topik dengan kata overlap. Oleh karena itu, skor kesamaan LDA_2013 berkisar relatif tinggi dari 0,7 hingga 1.0, yang membuatnya berkinerja baik dalam mengingat tetapi miskin dalam presisi, dan menekan kinerja keseluruhannya.Metode kami memegang semantik inti dari dokumen secara langsung melalui acara topik terstruktur, skor kesamaan metode TE berfluktuasi dari 0,0 ke 1.0 sesuai dengan kesamaan pasangan dokumen, dan mereka lebih diskriminatif dan memiliki kinerja keseluruhan yang lebih baik.

6.4.3. Waktu dan biaya memori

Setiap metode dalam percobaan kami memerlukan proses offline.Sulit untuk mengukur dan membandingkan proses off-line dari biaya-biaya di lingkungan dan prosedur yang berbeda.Pada bagian ini kami mengukur waktu berjalan ketika menghitung kemiripan semantik tingkat dokumen dalam kondisi yang sama. Waktu rata-rata metode TE yang dikonsumsi adalah 0.002 dan pendudukan memori sekitar 100 juta, sedangkan LDA_2013 berharga 4,83 dan menempati lebih dari 8G memori.Jelas bahwa metode TE kami lebih efisien daripada pengukuran tradisional berbasis LDA dalam hal waktu dan biaya memori.Alasannya adalah bahwa metode TE kami menggunakan ontologi domain untuk menghitung kesamaan semantik daripada model LDA besar.Secara umum, Metode TE kami yang mencapai kesamaan semantik berdasarkan ekstraksi dan templat mendapatkan kinerja keseluruhan yang diinginkan.

7.Kesimpulan

Makalah ini mengusulkan untuk pertama kalinya membangun acara topik untuk mewakili semantik dokumen dan mengukur kesamaan semantik antara akademisic literatur dengan menghitung kemiripan acara topik yang sesuai.Kami mendefinisikan arsitektur umum acara topik dan memberikan metode komputasi konstruksi dan persamaan acara acara. Gaya penelitian ontologi dan corpus evaluasi dibangun. Untuk mengukur kesamaan konsep semantik, kami merancang Ontologi Linguistik Komputasi.Eksperimen evaluasi menunjukkan bahwa metode acara topik kami mendapatkan peningkatan yang signifikan pada pengukuran kesamaan semantik saat ini,dan metode TE berbasis ontologi menunjukkan keunggulan keseluruhan dalam Korelasi, Akurasi dan skor F1.Sumber daya pengetahuan seperti ontologi domain memainkan peran penting dalam kesamaan semantik dokumen.Selain itu, metode kami dapat digunakan untuk memodelkan semantik dari gaya kerja penelitian yang berbeda,dan konstruksi otomatis berbasis ontologi dan penghitungan kesamaan TE sesuai di berbagai domain,yang berarti metode kami dapat dengan mudah digunakan di berbagai domain akademik.

Ucapan Terima Kasih

Penelitian ini didukung oleh Yayasan Laboratorium Kunci Negara Lingkungan Pengembangan Perangkat Lunak (Grant No. SKLSDE-2015ZX-04).Kami berterima kasih kepada pengulas atas umpan balik mereka yang berharga, yang membantu memperbaiki makalah ini.

Referensi

[1] Courtney Corley and Mihalcea Rada. 2005.: Measuring the Semantic Similarity of Texts. In: Proceedings of the
ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pages 13-18.
[2] Rus, V., Lintean M., Graesser, A.C., & McNamara,D.S. 2009.: Assessing Student Paraphrases Using Lexical
Semantics and Word Weighting. In: Proceedings of the 14th International Conference on Artificial Intelligence in
Education, Brighton, UK.
[3] Banea C, Choi Y, Deng L, et al.: CPN-CORE: A Text Semantic Similarity System Infused with Opinion Knowledge.
In: Proceeding of Second Joint Conference on Lexical and Computational Semantics. Atlanta, Georgia, USA,
2013: 221.
[4] Bill Dolan, Chris Quirk, and Chris Brockett. 2004.: Unsupervised Construction of Large Paraphrase Corpora:
Exploiting Massively Parallel News Sources. In: Proceedings of ACL, pages 350.
[5] Agirre E, Banea C.: SemEval-2015 task 2: Semantic textual similarity, English, Spanish and pilot on
interpretability[C] SemEval 2015, June.
[6] Daniel Ramage, Anna N. Rafferty, and Christopher D. Manning.: Random walks for text semantic similarity. In
Proceedings of the 2009 workshop on graph-based methods for natural language processing. Association for
Computational Linguistics, 2009: 23-31.
[7] Vasile Rus, Mihai Lintean, Cristian Moldovan, William Baggett, Nobal Niraula, and Brent Morgan.: The similar
corpus: A resource to foster the qualitative understanding of semantic similarity of text. In: Proceedings of LREC,
2012:23-25.
[8] Frane Šarić, Goran Glavaš, Mladen Karan, Jan Šnajder and Bojana Dalbelo Bašić. 2012.: Takelab: Systems for
measuring semantic text similarity. In: Proceedings of the Sixth International Workshop on Semantic Evaluation.
Association for Computational Linguistics, papers 441-448.
[9] R. Amsler.: Application of citation-based automatic classification. Technical report, The University of Texas at
Austin Linguistics Research Center, 1972.
[10] M. Kessler.: Bibliographic Coupling Between Scientific Papers, Journal of the American Documentation, Vol. 14,
No. 1, pp.10-25, 1963.
[11] H. Small, “Co-citation in the Scientific Literature: A New Measure of the Relationship between Two Documents,”
Journal of the American Society for Information Science, Vol. 24, No.4, pp. 265-269, 1973.
[12] G Salton, A Wong, CS Yang.: A vector space model for automatic indexing[J], Communications of the ACM ,1975,
V(11):613-620.
[13] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003.: Latent dirichlet allocation, J. of Mach Learn. Res.,
3: 993-1022.
[14] Madylova A, Öğüdücü Ş G.: A taxonomy based semantic similarity of documents using the cosine
measure[C]//Computer and Information Sciences. 24th International Symposium on. IEEE, 2009: 129-134.
[15] Nagwani N K, Verma S.: A frequent term and semantic similarity based single document text summarization
algorithm [J]. International Journal of Computer Applications (0975–8887) Volume, 2011: 36-40.

[16] Schuhmacher M, Ponzetto S P.: Knowledge-based graph document modeling[C], In: Proceedings of WSDM,
2014: 543-552.
[17] Rafi M, Shaikh M S.: An improved semantic similarity measure for document clustering based on topic maps[J].
arXiv preprint arXiv:1303.4087, (2013)
[18] Wang Ying, Zhang Ru-bo, and Lai Ji-bao. 2009.: Measuring concept similarity between fuzzy ontologies. Fuzzy
Information and Engineering 2: 163-171.
[19] Muyu Zhang, Bing Qin, Mao Zheng et al.: Encoding Distributional Semantics into Triple-Based Background
Knowledge Ranking for Document Enrichment. In: Proceedings of ACL.
[20] Dragomir R. Radev, Pradeep Muthukrishnan, and Vahed Qazvinian. 2009.: The ACL anthology network corpus.
In Proceedings of the 2009 Workshop on Text and Citation Analysis for Scholarly Digital Libraries. Association
for Computational Linguistics, pages 54-61.
[21] Leacock, C., and Chodorow, M. 1998.: Combining local context and WordNet sense similarity for word sense
identification. In WordNet, An Electronic Lexical Database. The MIT Press.
[22] Zhibiao Wu and Martha Palme.1994.: Verb semantics and lexical selection. In: Proceedings of ACL, pages 133-
138.
[23] Lin, D. 1998.: An information-theoretic definition of similarity. In: Proceedings of the International Conf. on
Machine Learning.
[24] Resnik, P. 1995.: Using information content to evaluate semantic similarity. In: Proceedings of the 14th
International Joint Conference on Artificial Intelligence.
[25] Goikoetxea J, Soroa A, Agirre E, et al.: Random walks and neural network language models on knowledge
bases[C]. In: Proceedings of NAACL-HLT. 2015: 1434-1439.
[26] Faruqui M, Dyer C.: Non-distributional word vector representations [J]. arXiv preprint arXiv:1506.05230, (2015)
[27] Thomas K. Landauer, Peter W. Foltz, and Darrell Laham. 1998.: An Introduction to latent semantic analysis.
Discourse Processes, 25(2-3):259-284.
[28] J. Pennington, R. Socher, and C. D. Manning.: Glove: Global vectors for word representation. In: Proceedings of
EMNLP, 2014.
[29] Turney, P. 2001.: Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In: Proceedings of the Twelfth
European Conference on Machine Learning.
[30] Cilibrasi, R.L. & Vitanyi, P.M.B. 2007.: The Google Similarity Distance, IEEE Trans. Knowledge and Data
Engineering, 19:3, 370-383.
[31] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.: Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[32] Quoc V Le and Tomas Mikolov.: Distributed representations of sentences and documents. arXiv preprint
arXiv:1405.4053, 2014.
[33] Martín G H, Schockaert S, Cornelis C, et al.: Using semi-structured data for assessing research paper similarity
[J]. Information Sciences, 2013, 221: 245-261.
[34] Muyu Zhang, Bing Qin, Ting Liu, et al.: Triple based Background Knowledge Ranking for Document Enrichment.
In: Proceedings of COLING, 2014.
[35] Kim, J. H.; Kim, D.; Kim, S.; and Oh, A.: Modeling topic hierarchies with the recursive chinese restaurant process.
In Proceedings of the 21st CIKM, 2012:783–792.
[36] Vasile Rus, Mihai Lintean, Rajendra Banjade, Nobal Niraula and Dan Stefanescu. 2013.: SEMILAR: The
Semantic Similarity Toolkit. In: Proceedings of ACL, pages 163-168.
[37] Musen, M.A.: The Protégé project: A look back and a look forward. AI Matters. Association of Computing
Machinery Specific Interest Group in Artificial Intelligence, 1(4), June (2015).
[38] Dominika Tkaczyk, Paweł Szostek, Mateusz Fedoryszak et al.: CERMINE: automatic extraction of structured
metadata from scientific literature. In: International Journal on Document Analysis and Recognition (IJDAR), pp.
317–335, 2015.