Calculating
Semantic Similarity between Academic
Articles using Topic Event and Ontology
Articles using Topic Event and Ontology
Ming
Liua,1, Bo Langa and Zepeng Gua
a State Key Laboratory of Software Development Environment, Beihang University, Beijing,
China
a State Key Laboratory of Software Development Environment, Beihang University, Beijing,
China
Abstrak
Menentukan kesamaan semantik antara dokumen akademik sangat penting untuk banyak tugas seperti deteksi plagiarisme, survei teknis otomatis, dan pencarian semantik.Studi saat ini kebanyakan berfokus pada kesamaan semantik antara konsep, kalimat dan fragmen teks pendek.Namun, pencocokan semantik tingkat dokumen masih didasarkan pada informasi statistik di permukaan, mengabaikan struktur artikel dan makna semantik global,yang dapat menyebabkan penyimpangan dalam pemahaman dokumen. Dalam tulisan ini, kami fokus pada masalah kesamaan semantik tingkat dokumen untuk literatur akademik dengan metode baru.Kami mewakili artikel akademik dengan acara topik yang memanfaatkan beberapa profil informasi, seperti tujuan penelitian,metodologi dan domain untuk menggambarkan secara integral pekerjaan penelitian,dan menghitung kesamaan antara peristiwa topik berdasarkan ontologi domain untuk memperoleh kesamaan semantik antara artikel.Eksperimen menunjukkan bahwa pendekatan kami mencapai kinerja yang signifikan dibandingkan dengan metode canggih.
Menentukan kesamaan semantik antara dokumen akademik sangat penting untuk banyak tugas seperti deteksi plagiarisme, survei teknis otomatis, dan pencarian semantik.Studi saat ini kebanyakan berfokus pada kesamaan semantik antara konsep, kalimat dan fragmen teks pendek.Namun, pencocokan semantik tingkat dokumen masih didasarkan pada informasi statistik di permukaan, mengabaikan struktur artikel dan makna semantik global,yang dapat menyebabkan penyimpangan dalam pemahaman dokumen. Dalam tulisan ini, kami fokus pada masalah kesamaan semantik tingkat dokumen untuk literatur akademik dengan metode baru.Kami mewakili artikel akademik dengan acara topik yang memanfaatkan beberapa profil informasi, seperti tujuan penelitian,metodologi dan domain untuk menggambarkan secara integral pekerjaan penelitian,dan menghitung kesamaan antara peristiwa topik berdasarkan ontologi domain untuk memperoleh kesamaan semantik antara artikel.Eksperimen menunjukkan bahwa pendekatan kami mencapai kinerja yang signifikan dibandingkan dengan metode canggih.
Kata Kunci : Dokumen Kesamaan Semantik; Topik Acara;
Ontologi;Analisis literatur ilmiah
1.Pengantar
Pencocokan
semantik teks banyak digunakan dalam banyak aplikasi seperti terjemahan mesin,
penjawaban pertanyaan otomatis, dan pencarian pengetahuan.Ini juga memiliki
makna besar dalam deteksi plagiarisme, survei teknis otomatis, rekomendasi
kutipan dan analisis tren penelitian dalam domain akademik.Masalah semantik
teks, seperti semantik kata dan semantik kalimat telah mendapat perhatian yang
meningkat dalam beberapa tahun terakhir.Namun, penelitian langka berfokus pada
pencocokan semantik tingkat dokumen karena kerumitannya.Dokumen panjang
biasanya memiliki struktur canggih dan informasi besar, yang menyebabkan
kesulitan mengukur kesamaan semantik mereka,dan bahkan tidak ada set data
publik yang tersedia sejauh yang kami tahu.
Unit teks besar
terdiri dari unit teks kecil.Semantik dokumen panjang dapat diturunkan dari
kombinasi semantik unit teks kecil.Banyak penelitian terbaru mengikuti
pemikiran ini untuk memperoleh kesamaan semantik antara unit teks yang lebih
besar.Sebagai contoh,kalimat kesamaan semantik dapat dicapai dari integrasi
kesamaan semantik antara pasangan kata dari dua kalimat [1,2]. Selain semantik
leksikal, fitur tingkat kalimat global juga dipertimbangkan untuk memperoleh
kesamaan semantik antara kalimat [1-8].Namun, studi tersebut hanya fokus pada
teks pendek oleh semantik leksikal dan fitur tingkat kalimat, yang masih jauh
dari kemampuan kesamaan semantik tingkat dokumen.Studi yang berfokus pada
kesamaan semantik antara dokumen relatif jarang.Metode yang ada dari kesamaan
tingkat dokumen terutama berfokus pada pencarian informasi di tingkat permukaan
daripada pemahaman tingkat semantik.Metrik kesamaan kesamaan konvensional
[9-11] mengukur kesamaan dokumen dengan statistik atau morfologi kata,
mengabaikan struktur dokumen dan makna kata-kata mereka,seperti model ruang
vektor (VSM) [12]. VSM menganggap setiap dokumen sebagai kumpulan kata-kata dan
mengukur kesamaan dokumen terutama berdasarkan pada kehadiran kata-kata, mis.,
ada dua cuplikan teks: "Jack meminjam buku dari guru" dan "Guru
meminjam buku dari Jack".VSM menganggap kedua teks itu sama, tetapi
sebenarnya keduanya memiliki makna yang berlawanan.Latent Dirichlet Allocation
(LDA) [13] diusulkan untuk analisis mendalam dokumen berdasarkan perbedaan
distribusi topik dibandingkan dokumen,yang dapat digunakan untuk mengukur
semantik tingkat dokumen.Ada juga penelitian [14-19] yang mencoba menambahkan
pengetahuan eksternal ke representasi dokumen, yang memperkaya konten dengan
menambahkan istilah yang relevan dari sumber daya pengetahuan.Namun, metode ini
masih mengalami masalah seperti kompleksitas komputasi dan kekeruhan
representasional.Dokumen panjang berisi banyak transisi topik dan fokus
berbeda, yang membuatnya sulit untuk menangkap semantik intinya.Namun, kami
percaya bahwa topik-topik tersebut dalam sebuah dokumen adalah koheren, dan
korelasi tersebut dapat diperoleh dengan analisis komprehensif tentang berbagai
faktor dokumen.Oleh karena itu, kami merepresentasikan isu semantik inti dalam
setiap dokumen sebagai peristiwa yang disebut Acara Topik (TE).TE adalah
ringkasan terstruktur yang diekstrak dari setiap dokumen, yang berisi
elemen-elemen kunci komprehensif dari dokumen tersebut.
Semantik inti dari
artikel akademis adalah karya penelitian penulis.Kami membangun TE berdasarkan
pada struktur artikel dan menggunakan berbagai bidang informasi seperti target
penelitian, metodologi, kata kunci dan domain,yang secara integral dapat menggambarkan
berbagai aspek pekerjaan penelitian. Oleh karena itu, kesamaan semantik antara
makalah akademis dapat diukur dengan kemiripan TE, yang ditunjukkan pada
Gambar.1. Untuk mencapai akurasi tinggi dalam penghitungan kemiripan TE, kami
juga mengembangkan dan memanfaatkan ontologi gaya penelitian dan ontologi
domain dalam domain akademik.Untuk membuat pendekatan kami lebih praktis, kami
menyajikan metode bagaimana membangun TE secara otomatis.Untuk memverifikasi
kinerja,kami membangun sebuah korpora evaluasi oleh anotasi manual menggunakan
ACL Anthology Network (AAN) corpora [20].Eksperimen menunjukkan bahwa metode
kami memperoleh kinerja luar biasa, dan hasilnya juga lebih sesuai dengan
pemahaman manusia.Sebagai rangkuman, kontribusi utama dari pekerjaan kami
adalah sebagai berikut:
—Kami mengusulkan
gagasan untuk membangun acara topik sebagai representasi semantik dari dokumen
panjang,dan memberikan metode umum untuk perhitungan kesamaan acara topik.—Kami
mengembangkan dan membangun ontologi gaya penelitian dan ontologi domain untuk artikel
akademik,dan dua sumber pengetahuan ini dapat memfasilitasi ekstraksi semantik
dan prosedur pengukuran kesamaan dari topik acara secara efektif.—Kami
menyediakan metode konstruksi TE otomatis ontologi tanpa data berlabel dalam
domain tertentu,dan memanfaatkan metode ini dalam topik acara konstruksi
dokumen linguistik komputasi.—Kami memperkenalkan korpus pencocokan semantik
dokumen dengan anotasi berbutir halus untuk pertama kalinya,yang dapat
berfungsi sebagai kebenaran dasar untuk evaluasi penelitian pencocokan semantik
tingkat dokumen.Sisa dari makalah ini disusun sebagai berikut. Di Bagian 2,
kami menjelaskan pekerjaan terkait. Bagian 3 menyediakan sketsa acara topik
dalam domain akademik.Dalam Bagian 4, metode konstruksi otomatis topik acara diberikan.
Dalam Bagian 5, kami menjelaskan metode komputasi kesamaan dari acara
topik.Pada bagian 6, ontologi domain dan evaluasi korpora dalam domain
linguistik komputasi dibangun, dan kemudian evaluasi eksperimental
diberikan.Akhirnya, kami menyimpulkan makalah di Bagian 7.
2.Pekerjaan yang berhubungan
Penelitian
kesamaan semantik tingkat dokumen adalah bidang baru yang muncul,yang dianggap
dapat dicerahkan oleh konsep dan metode pencocokan semantik teks
pendek.Semantik tingkat konsep adalah batu bata pemahaman semantik dokumen, dan
kesamaan tingkat teks pendek adalah area yang paling aktif saat ini,yang
menyoroti kesamaan semantik tingkat dokumen.Secara umum, kesamaan semantik
tingkat konsep dapat diukur dengan metode berbasis pengetahuan dan metode berbasis
corpus.Metode berbasis pengetahuan terutama memanfaatkan jalur antara
konsep-konsep dalam sumber daya pengetahuan untuk menunjukkan kesamaan semantik
mereka [21,22].Lin [23] dan Resnik [24] mengukur kesamaan semantik dengan rasio
konten informasi dari pelanggan yang paling tidak umum dari kedua
konsep.Alih-alih secara langsung mengeksploitasi jarak grafik dalam sumber daya
pengetahuan, beberapa penelitian [25,26] vektor konsep yang diproduksi sesuai
dengan seperangkat sifat ontologi untuk kesamaan konsep semantik.Metode
berbasis Corpus mengasumsikan bahwa kata-kata dengan makna yang sama sering
terjadi dalam konteks yang sama,Latent Semantic Analysis (LSA) [27] mewakili
kata-kata sebagai vektor kompak melalui dekomposisi nilai singular (SVD) pada
matriks corpus,dan GloVe [28] mengurangi biaya komputasi dengan melatih
langsung unsur-unsur yang tidak nol dalam matriks corpus.Turney [29] mengukur
kesamaan semantik dengan informasi timbal balik yang bijak.Web juga dapat
dianggap sebagai kumpulan besar, dan Google Distance [30] menggunakan jumlah
kata yang muncul bersamaan di halaman web untuk konsep kesamaan
semantik.Mikolov [31] mengusulkan pendekatan embedding kata dengan jaringan
saraf untuk menangkap kata semantik yang terjadi di jendela ukuran tetap.Tantangan
untuk menentukan kemiripan semantik teks pendek adalah bagaimana beralih dari
semantik tingkat kata ke semantik tingkat teks.Sebuah pendekatan langsung
adalah menggunakan jumlah kemiripan kata-ke-kata yang berbobot, dan [1,2]
menggunakan metode penyelarasan kata serakah untuk membentuk kesamaan kalimat
semantik.Banea et al. [3] mengukur kemiripan semantik antara cuplikan teks yang
dilengkapi dengan pengetahuan opini. D Ramage et al.[6] membuat grafik konsep
menggunakan kata-kata dari masing-masing potongan teks, kemudian diukur
kesamaan antara dua grafik konsep.Baru-baru ini, konferensi SemEval merilis
tugas Semantic Text Similarity (STS) terutama untuk booming semantik teks
pendek,dan model regresi diadopsi oleh sebagian besar tim [5,8] untuk memprediksi
skor kesamaan, dan fitur leksikal dan fitur sintaksis dieksploitasi.Vektor
paragraf [32], yang mirip dengan penyematan kata, juga diusulkan dengan
jaringan saraf untuk mengukur kesamaan semantik antara teks-teks
pendek.Penelitian yang terkait langsung dengan dokumen kesamaan semantik jarang
dan tidak berkembang.Penelitian kesamaan tradisional seperti TF-IDF [12]
mengkonversi dokumen menjadi vektor melalui penghitungan kata,dan mengukur
kesamaan antar dokumen dengan kesamaan vektor.Artikel akademik dapat dianggap
sebagai teks semi-terstruktur, yang berisi banyak anotasi terstruktur selain
teks biasa.Kesamaan antara artikel akademik dapat diukur dengan bantuan
informasi beranotasi. Martin et al.[33] menyatukan informasi terstruktur,
seperti penulis dan kata kunci dengan langkah-langkah berbasis teks tradisional
untuk kesamaan artikel akademik.[9-11] menganggap artikel dan kutipannya
sebagai jaringan informasi. Kesamaan antar artikel beralih ke kesamaan dua
entitas dalam jaringan informasi.Sayangnya, metode kesamaan konvensional di
atas bertujuan pengindeksan dokumen di tingkat permukaan, daripada pemahaman
dokumen tingkat semantik.Ada beberapa studi yang mencoba menambah pengetahuan
eksternal untuk mencapai representasi semantik dokumen.[14,15,17] memperkaya konten
dengan menambahkan istilah yang relevan dari sumber daya pengetahuan, yang
bertujuan untuk meningkatkan kualitas hasil pengelompokan dokumen.[18,19]
mengekstraksi tiga kali lipat relasi dari dokumen sumber dan menambahkan relasi
entitas dari pengetahuan latar belakang untuk menyusun tiga grafik untuk
pengayaan dokumen.Schuhmacher dan PonzeRo [16] mengusulkan model semantik
berbasis grafik untuk mewakili konten dokumen,yang menambah pengetahuan pada
representasi dokumen dengan menghubungkan entitas dalam dokumen ke basis
pengetahuan DBpedia.Metode-metode tersebut memperoleh hubungan halus antara
entitas dan menghasilkan model dokumen yang kaya pengetahuan, dan kesamaan
semantik dihitung dengan jarak edit grafik.Namun, metode di atas adalah
kurangnya interpretasi.Selain itu, ada entitas langka seperti orang,
organisasi, dan nama tempat di dalam konten artikel akademik, yang membuat
metode tersebut tidak cocok.Dokumen panjang seperti artikel akademis biasanya
memiliki beberapa fokus dan sejumlah besar kata-kata.LDA [13] memperoleh
keterkaitan semantik antara berbagai konsep melalui topik dan menganggap setiap
dokumen sebagai distribusi atas serangkaian topik.Dengan demikian LDA dapat
digunakan dalam analisis semantik dokumen panjang. Muhammad Rafi [17] mendefinisikan
ukuran kesamaan berdasarkan peta topik dalam tugas pengelompokan
dokumen.Dokumen-dokumen tersebut ditransformasikan ke dalam peta topik
berdasarkan pengetahuan kode, dan kesamaan antara sepasang dokumen
direpresentasikan sebagai korelasi antara pola-pola umum mereka.M. Zhang et
al.[34] memperkaya dokumen dengan topik tersembunyi dari korpora eksternal, dan
mengukur kesamaan dokumen dalam tugas klasifikasi teks dengan kesamaan
distribusi topik.Sepanjang arah model topik, [35,36] mengukur kesamaan semantik
antara dokumen berdasarkan divergensi distribusi topik,yang dapat dihitung
dengan jarak Kullback-Leibler (KL), dan metode berbasis LDA cocok dengan tugas
kesamaan semantik antara artikel akademik.
3. Topik Acara
Apa yang bisa
digunakan untuk menyampaikan semantik utama dari dokumen panjang?Tugas ini
rumit dan tidak akan mendapat manfaat langsung dari akumulasi semantik konsep
masif.Untuk mendapatkan pemahaman global tentang suatu dokumen, perlu untuk
mengekstrak informasi kunci dari sejumlah besar kata-kata dan membentuk
semantik inti dari suatu dokumen.
Fig.
2. Structure of topic event
3.2. Gaya
penelitian ontologi
Gaya kerja
penelitian melibatkan semantik penting. Mereka dapat mencerminkan varians
penelitian dalam kesulitan, cara dan jenis.Sebagai contoh, E1 dan E2 adalah dua
karya penelitian sebagai berikut.
E1: Penulis
menyurvei teknik-teknik seputar masalah tertentu dan merangkumnya sebagai
artikel akademik.E2: Penulis fokus pada masalah tertentu dan mengusulkan
solusi, proses dan hasil solusi ditulis sebagai makalah akademis.
Ada perbedaan yang
berbeda antara E1 dan E2. E1 adalah makalah kelas Survey, sedangkan E2 adalah
makalah kelas Solusi Issue.Secara umum, E2 memiliki lebih banyak inovasi dan
kesulitan daripada E1, dan mereka memiliki nilai yang berbeda.E1 cocok untuk
pemula untuk mendapatkan pengetahuan dasar, sedangkan E2 lebih cocok untuk
menginspirasi orang yang berpengalaman.Oleh karena itu, jenis makalah akademik
merupakan faktor penting dalam mengekspresikan semantiknya.Untuk mengungkapkan
pengetahuan yang ditimbulkan oleh jenis gaya penelitian, pertama-tama kita
mengembangkan kategori gaya dari peristiwa topik, yang dibangun pada Gambar. 3
dengan menggunakan anak didik [37].Setiap gaya yang pasti dari setiap karya
penelitian ditunjukkan dan dijelaskan pada Tabel 1.Gaya ontologi penelitian
berimplikasi pada hubungan antara gaya kerja penelitian yang berbeda, yang
dapat digunakan untuk mengukur semantik antara berbagai penelitian akademis.
4. Pembangunan otomatis topik acara
4.1.Ikhtisar
Seperti yang
ditunjukkan pada Gambar 2, kita perlu mengekstrak Target, Metodologi, Domain,
Gaya, Kata Kunci dan Tanggal dari dokumen untuk menyusun acara topik.Pekerjaan
saat ini untuk mengekstraksi representasi terstruktur dari peristiwa telah
difokuskan terutama pada teks berita baru, yang memanfaatkan entitas
berlabel,ekspresi dan nilai waktu terjadi dalam kalimat target sebagai item
acara kandidat.Masalah ekstraksi peristiwa tradisional dianggap sebagai masalah
klasifikasi dengan bantuan data berlabel.Namun, ada data berlabel yang jarang
untuk melatih model ekstraksi, dan hampir tidak ada entitas berlabel dapat
berfungsi sebagai kandidat terminologi dalam domain tertentu.Literatur akademik
memiliki beberapa karakteristik yang menghadirkan tantangan dan peluang unik
untuk pengenalan item acara.Ada banyak penjelasan terstruktur dalam artikel
akademik seperti kutipan, penulis, tanggal publikasi, kata kunci dan
jurnal,yang jelas untuk diekstrak dan dapat digunakan untuk memperkaya topik
acara [38].Meskipun demikian, banyak item penting dari acara topik
disembunyikan dalam konten artikel akademik yang tidak terstruktur.Pekerjaan
utama ekstraksi adalah mengidentifikasi terminologi seperti target, metodologi,
domain, dan gaya dalam konten artikel.Untuk mengatasi masalah kekurangan data
acara berlabel, kami mengusulkan ontologi dan metode ekstraksi berbasis pola.
Artikel akademik biasanya
memiliki topik dan tujuan yang jelas, dan ada banyak struktur sintaksis reguler
dalam artikel akademik yang memberikan petunjuk untuk ekstraksi acara.Proses
konstruksi acara topik dijelaskan pada Gambar. 4.Pertama, kami membagi artikel
akademik menjadi bagian yang berbeda dan memilih bagian yang paling signifikan
untuk ekstraksi peristiwa topik.Kemudian kami melakukan pemrosesan bahasa alami
dasar (NLP) seperti pemisahan kalimat dan penandaan sebagian ucapan (POS) pada
setiap kalimat yang terlibat di bagian yang dipilih.Ketiga, kami memilih semua
frase nomina (NP) di setiap kalimat sebagai kandidat item topik acara serta
daftar terminologi terbatas yang berasal dari ontologi domain.Setelah itu,
argumen acara terbaik dipilih dari beberapa kandidat setelah pencocokan
pola.Akhirnya, item acara yang diekstraksi dikirim ke ontologi domain untuk
memperluas item semantik acara terkait.Secara umum, ontologi domain
menyampaikan keterkaitan semantik antara terminologi domain,yang dapat memberikan
terminologi serta hubungannya dalam domain tertentu.Dalam tulisan ini, ontologi
domain dapat memberikan pengetahuan eksternal untuk pemahaman semantik dokumen,
dan membantu prosedur konstruksi acara topik.
4.2.Pengenalan item acara
Secara rinci, kami
membagi setiap artikel akademik menjadi beberapa potongan sesuai dengan garis
besarnya, dan Judul, Abstrak,Bagian Pengantar dan Kesimpulan diyakini memiliki
deskripsi global dari seluruh pekerjaan penelitian tanpa banyak detail yang
tidak perlu.Kemudian kami mengidentifikasi kalimat yang terlibat dari bagian di
atas dengan kata-kata pemicu.Kalimat yang tersirat dapat berisi item acara, dan
kami menetapkan total 95 kata pemicu untuk ekstraksi item.Untuk menangkap
kandidat item acara dalam kalimat yang terlibat, kami memanfaatkan ontologi
domain dan beberapa proses NLP.Daftar terminologi yang berasal dari ontologi
domain digunakan untuk menemukan item acara potensial.Namun, masalah utama
lainnya adalah bagaimana menemukan banyak frasa yang tidak diketahui dalam
artikel akademik baru.Untuk mengatasi masalah ini, kami melakukan penandaan POS
pada setiap kalimat, dan kemudian menggunakan semua frasa kata benda sebagai
kandidat item acara untuk menangkap frasa baru yang tidak diketahui.Pengakuan
target dan metodologi Setelah memperoleh terminologi kandidat, langkah
selanjutnya adalah untuk mengkonfirmasi kandidat mana yang merupakan item acara
terbaik di setiap kalimat.Kami mengembangkan pola untuk ekstraksi Target, dan
Metodologi.Pola penggalian terdiri dari pra-pola dan pasca-pola,yang merupakan
pola sering terjadi di depan item acara dan pola sering terjadi setelah item
acara.Beberapa pola ekstraksi Target dan metodologi ditunjukkan pada Tabel 2.
Secara keseluruhan ada lebih dari 550 pola untuk ekstraksi Target dan
Metodologi.Misalnya, kalimat yang terlibat "Dalam makalah ini, kami
mengusulkan pendekatan pembelajaran mesin yang diawasi untuk ekstraksi
hubungan" diidentifikasi oleh kata-kata pemicu "mengusulkan"dari
bagian pengantar dari artikel akademik. Ini cocok dengan pola target
sebelumnya, yaitu "pendekatan untuk".Dengan demikian, terminologi
"ekstraksi relasi" dipilih sebagai target artikel ini.
Pengakuan gaya
penelitian Kita dapat melihat bahwa artikel-artikel dari gaya penelitian yang
berbeda memiliki karakteristik judul yang berbeda dari Tabel1.Banyak jenis
artikel akademik dalam komputasi domain linguistik dapat didiagnosis
berdasarkan judul makalah ini.Misalnya, setiap judul jenis Solusi Masalah
berbeda, itu akan mulai dengan nama singkatan dari perangkat lunak mereka dan
menghubungkan judul berikutnya dengan tanda baca ":"atau
"-", mis., "TEXTRUNNER: Buka Ekstraksi Informasi Di Web",
"URES: Sistem Ekstraksi Relasi Web Tanpa Pengawasan".Sebagian besar
judul menampilkan kata-kata untuk membedakan gaya penelitian mereka, dan kami
mengembangkan pola untuk mengidentifikasi gaya penelitian topik pada Tabel 3.
4.3.Ekspansi
semantik berbasis ontologi
Banyak item dalam
acara topik berkorelasi erat seperti tujuan dan domain penelitian, metodologi
dan perangkat yang diadopsi,objek penelitian dan dataset.Secara umum, tujuan
penelitian adalah masalah inti dari artikel akademik dan acara topik yang
sesuai,dan domain tempat artikel akademik ditentukan oleh tujuan
penelitiannya.Saat kami mengekstrak target artikel akademik, kami menggunakan
ontologi domain untuk menginduksi domain miliknya.
Setelah
mengekstraksi target penelitian, kesamaan semantik antara target dan setiap
konsep domain yang telah ditentukan dihitung berdasarkan ontologi domain,
seperti yang ditunjukkan pada Gambar.5 yang menggunakan Ontologi Linguistik
Komputasi sebagai contoh ontologi domain.Konsep domain yang memiliki kesamaan
semantik maksimal dengan konsep target dipilih sebagai domain dari artikel
penelitian yang sesuai.
5. Perhitungan kesamaan acara topik
5.1.Kerangka umum
Karena acara topik
dapat mewakili semantik dokumen,kesamaan semantik antara dokumen dapat dicapai
melalui kesamaan antara acara topik.Dalam makalah ini, kami mendapatkan
informasi yang disembunyikan di setiap dokumen melalui acara topik, dan memperoleh
relevansi internal di antara konsep-konsep dari ontologi domain.
Dalam metode kami,
untuk menghitung semantik inti makalah secara singkat, enam elemen utama dalam
acara topik digunakan sesuai dengan karakteristik mereka, yaitu Target,
Domain,Gaya, Metodologi, Kata Kunci dan Tanggal.Kami menggunakan ontologi topik
acara untuk mengukur acara internal kesamaan antara berbagai jenis,dan ontologi
domain digunakan untuk mengukur kesamaan semantik internal antara
terminologi.Kami mengukur kesamaan acara topik dengan jumlah kesamaan elemen
dalam struktur acara yang sesuai,dan juga dapat diperluas dengan metadata dan
elemen lainnya untuk kesamaan acara topik yang lebih rinci.Kesamaan antara
peristiwa topik E1 dan E2 didefinisikan dalam persamaan (1):
𝑆𝑖𝑚𝑇𝐸𝑠(𝐸1, 𝐸2) = ∑6 𝑖=1 𝑊𝑖 × 𝑆𝑖(𝐿1𝑖, 𝐿2𝑖) (1)
di mana wi adalah
bobot elemen ke-i dalam acara topik, Si adalah fungsi kesamaan antara elemen
ke-L1 dan L2.L1 dan L2 adalah dua peristiwa topik yang unsur-unsurnya
didefinisikan sebagai L = {Target, Domain, Gaya, Metodologi, Kata Kunci,
Tanggal}.Acara topik mengekstrak semantik inti dari setiap artikel akademik.
Namun, makna item acara tidak dapat diukur dengan penampilan
literalnya.Pengetahuan latar belakang seperti makna leksikal diperlukan untuk
memahami semantik artikel.Untuk mendapatkan keterkaitan semantik internal
antara berbagai terminologi,terminologi dalam acara topik seharusnya terkait
dengan node konsep di basis pengetahuan untuk mendapatkan keterkaitan semantik
mereka.Pada bagian berikut, kami akan memperkenalkan metode penghubung konsep
dan pengukuran kesamaan barang semantik.
5.2.Penautan
konsep ontologi domain
Untuk menghitung
kesamaan internal antar terminologi,masalah penting adalah untuk menghubungkan
terminologi yang diekstraksi ke posisi yang tepat di basis pengetahuan.Ada
banyak sinonim dalam artikel akademik, dan banyak konsep dapat dideskripsikan
oleh berbagai terminologi dalam makalah yang berbeda seperti "lintas
linguistik pengambilan" dan "pencarian informasi multibahasa
"," pemahaman teks "dan" pemahaman pesan ","
pengakuan entitas bernama "dan" tagger entitas bernama ".Ketika
kami membangun ontologi domain, kami memberi label semua sinonim yang diketahui
dari setiap konsep dalam node untuk memfasilitasi penautan entitas.Banyak terminologi
yang diekstraksi secara otomatis memakai akhiran dan awalan yang sepele, yang
dapat menghalangi entitas untuk terhubung.Untuk mengatasi masalah ini, kami
menggunakan jarak edit untuk mengukur kesamaan string dan mengenali variasi
konsep yang sama.Karena ontologi kami dibangun untuk domain linguistik
komputasi, dan semua konsep node diekstraksi dari domain corpus,kebanyakan
terminologi akan menemukan posisi konsep ekstrak di ontologi domain. Kami
pertama-tama membuat daftar terminologi untuk membentuk ontologi domain.Ketika
sebuah terminologi yang diekstrak dari artikel akademis datang, jarak sunting
dengan masing-masing terminologi dihitung.Node konsep dengan jarak edit minimum
akan dianggap sebagai simpul terminologi.
5.3.Kesamaan item
dari topik acara
Item-item seperti
Target, Metodologi dan Domain adalah terminologi, dan kesamaan semantiknya
dapat diukur dengan ontologi domain.Kesamaan semantik antara Gaya dapat diukur
melalui ontologi gaya penelitian. Kesamaan Tanggal dapat diukur dengan
intervalnya.Secara singkat, kesamaan item-item tersebut dalam peristiwa topik
dapat diukur dengan metode berikut.
Kesamaan Gaya
Penelitian Untuk mengukur perbedaan antara berbagai jenis pekerjaan penelitian,
ontologi gaya penelitian yang dijelaskan pada Tabel 1 dapat digunakan.Kesamaan
Gaya antara berbagai jenis peristiwa topik diukur mirip dengan metode Wu dan
Palmer [22] berdasarkan ontologi gaya penelitian yang ditunjukkan pada
Gambar.3,dan rumusnya adalah sebagai persamaan (2):
di mana Style1 dan
Style2 berarti jenis dari dua peristiwa topik. LCS adalah pelanggan paling umum
dari dua node gaya.Terminologi Similarity Konsep kesamaan semantik dapat diukur
dengan basis pengetahuan.Kami mengevaluasi beberapa metode berbasis pengetahuan
dan menemukan metode Wu dan Palmer [22] cocok untuk kesamaan konsep dalam
domain ini.Isi target, Domain, Metodologi, dan Kata Kunci adalah kumpulan
terminologi,yang dapat diukur dengan metode Wu dan Palmer berdasarkan ontologi
domain atau metode berbasis kata embedding.Kesamaan konsep semantik berbasis
ontologi diukur dengan persamaan (3):
di mana EC1 dan
EC2 mewakili terminologi dalam acara topik.Ketika metode kesamaan konsep
berbasis korpus digunakan untuk kesamaan semantik terminologi, persamaan cosinus
antara vektor terminologi dapat digunakan.Kesamaan cosinus didefinisikan dalam
persamaan (4):
Tanggal Kemiripan
Masalah penelitian terus berkembang sepanjang waktu, dan peneliti akan fokus
pada berbagai masalah ilmiah di setiap periode.Kami berasumsi bahwa artikel
akademik yang memiliki tanggal penutupan akan lebih mirip, dan artikel akademik
yang diterbitkan jauh dari satu sama lain akan memiliki poin yang kurang
umum.Dengan demikian, kesamaan tanggal dapat diukur dengan interval waktu.
Tahun dan bulan digunakan untuk menghitung kesamaan antara dua tanggal.Kami
mendefinisikan rumus Tanggal Kesamaan adalah sebagai persamaan (5).
6. Evaluasi eksperimental
6.1.Konstruksi
perusahaan
Ada beberapa
dataset publik yang digunakan untuk mengevaluasi kesamaan semantik dari teks
dan kalimat pendek, seperti MSPR [3], Michael D.LEE 50 corpus [7] dan SEMILAR
corpus [5]. Namun, tidak ada teks dari set data yang lebih dari 200 kata, yang
tidak dapat memvalidasi kesamaan semantik tingkat dokumen.Karenanya,kami
membangun dataset kesamaan semantik antara dokumen menggunakan makalah akademik
dalam domain linguistik komputasi. Satu set pasangan kertas dihasilkan dari AAN
corpus [20].Pasangan kertas dianotasi oleh 2 tingkat dan 5 tingkat penjelasan
sebagai kebenaran dasar.Setiap pasangan kertas ditandai sebagai 1 jika secara
semantik serupa atau 0 jika berbeda dalam anotasi 2 tingkat.Dalam anotasi
5-tingkat, pasangan kertas ditandai oleh bilangan bulat mulai dari 1 hingga 5
sesuai dengan tingkat kesamaan semantik mereka.Jika mereka benar-benar sama
dalam semantik, kesamaan antara makalah akan dijelaskan sebagai 5, dan jika
mereka tidak ada hubungannya dengan satu sama lain, kesamaan dianotasi sebagai
1.Dua belas ahli dari lab kami memberi catatan dan silang memvalidasi koherensi
1021 pasang dokumen.Setiap pasangan kertas mendapatkan anotasi kedua oleh orang
yang berbeda setelah anotasi pertama.Jika anotasi kedua sesuai dengan anotasi
pertama, itu akan dijelaskan sebagai kebenaran dasar,kalau tidak orang ketiga
akan membubuhi keterangan pada pasangan kertas untuk mendapatkan kebenaran
dasar. Pada akhirnya kami mendapat korpus beranotasi dengan 1.021 pasangan
kertas.Sekarang corpus bersifat publik, dan urlnya adalah:
https://github.com/buaaliuming/DSAP-document-semantics-for akademik-papers /
tree / buaaliuming-annotation.
6.2. Ontologi
linguistik komputasi
Sumber daya
pengetahuan umum seperti WordNet tidak dapat mencakup terminologi domain.Untuk
menghitung kesamaan semantik antara terminologi, kami secara manual membangun
ontologi domain untuk menyampaikan semantik di antara berbagai terminologi.
Konsep yang
diekstrak dari AAN corpus [20] digunakan untuk membangun ontologi linguistik
komputasi secara manual.Saat ini ontologi kami mencakup 1.165 node konsep
dengan hierarki 9 kedalaman, yang akan diperluas terus-menerus di masa
mendatang.Arsitektur Computational Linguistics Ontology (CL Ontology)
ditunjukkan pada Gambar. 6. Hubungan utama antara konsep-konsep dalam ontologi
adalah hyponymy.Sinonim dipertimbangkan dan dijelaskan dalam node konsep
ontologi selama konstruksi.CL ontologi digunakan untuk mengukur kesamaan antara
konsep domain linguistik komputasi.Sesuai dengan karakteristik domain
linguistik komputasi, kami merancang ontologi sebagai tiga bagian, yaitu: Topik
Penelitian, Infrastruktur dan Pendekatan Umum,dan setiap bagian diperkaya oleh
node keturunan yang lebih rinci.Node General Approach mencakup metodologi umum
yang digunakan dalam linguistik komputasi, seperti pembelajaran mesin,
pencocokan pola, dan rekayasa pengetahuan, dll.Simpul Topik Penelitian mencakup
proses bahasa mendasar, masalah penelitian, dan objek penelitian.Proses bahasa
mendasar meliputi pemrosesan bahasa alami, seperti segmentasi kata, penguraian
sintaksis, penandaan POS, lemmatisasi, dll. Infrastruktur node berisi toolkit
umum, basis pengetahuan, korpora, dan organisasi di bidang linguistik
komputasi.
6.3. Pengaturan
eksperimen
Eksperimen
dilakukan pada mesin DELL OptiPlex390, yang memiliki memori 8G dan CPU
I5-2400.Selain peristiwa topik yang dikonstruksi secara otomatis, kami juga
secara manual membuat anotasi peristiwa topik makalah akademik yang sesuai
untuk kontras eksperimental.Metode berbasis LDA dipilih sebagai metode
dasar.Ketika menghitung kesamaan semantik antara terminologi dalam peristiwa
topik, metode LSA digunakan serta metode berbasis ontologi.Secara singkat, kami
melakukan metode berikut.
LDA_2013 Metode
berbasis LDA [36] pada 2013 adalah penelitian yang paling terkait dan dipilih
sebagai metode dasar untuk kontras.Saat melakukan metode berbasis LDA, beberapa
model LDA dengan parameter yang berbeda dilatih berdasarkan AAN corpus.Dalam
hasil yang disajikan berikut, kami memilih model LDA dengan 200 topik untuk
kontras, yang mencapai kinerja terbaik di antara model LDA yang berbeda dalam
kondisi yang sama.TE_Onto metode kesamaan semantik TE dilakukan pada anotasi
peristiwa topik emas, dan konsep kesamaan semantik dihitung oleh ontologi CL
kami.AutoTE_Onto metode kesamaan semantik TE dilakukan pada peristiwa topik
yang diekstraksi secara otomatis,dan kesamaan konsep semantik juga dihitung
oleh ontologi CL kami.Metode AutoTE_Onto digunakan sebagai perbandingan metode
TE_Onto untuk mengukur pengaruh ekstraksi peristiwa topik otomatis.
TE_LSA metode
kesamaan semantik TE dilakukan pada anotasi acara topik emas,dan konsep
persamaan semantik dihitung oleh kata vektor yang diproduksi oleh LSA.Metode
LSA memperoleh setiap representasi kata dengan operasi SVD, dan kesamaan
semantik antara terminologi ditangkap oleh kesamaan topik umum.Ketika metode LSA
digunakan dalam perhitungan item TE, kami membuat term-by-document matrix pada
seluruh corpus yang beranotasi.Metode TE_LSA digunakan sebagai perbandingan
metode TE_Onto untuk mengukur efek dari Comptational Linguistics
Ontology.AutoTE_LSA, metode kesamaan semantik TE dilakukan pada peristiwa topik
yang diekstraksi secara otomatis,dan konsep persamaan semantik juga dihitung
oleh vektor kata yang diproduksi oleh LSA.Bobot item TE Item utama acara topik
adalah Target, Domain, Metodologi, Gaya, Kata Kunci, dan Tanggal, yang
merupakan item penting pada Gambar. 2.Menurut pengalaman kami, target
penelitian adalah masalah penting dalam setiap artikel akademik.Domain
penelitian, jenis pekerjaan penelitian dan metode yang diadopsi dalam artikel
akademik adalah aspek penting, yang merupakan karakteristik diskriminatif dari
masing-masing pekerjaan penelitian.Sementara kata kunci adalah satu set
deskripsi fuzzy kurangnya semantik yang pasti.Tanggal publikasi menyiratkan
perbedaan usia teknologi, yang kurang diskriminatif dan tidak terkait langsung
dengan berbagai pekerjaan penelitian.Kami mengatur berat item yang disebutkan
di atas sesuai dengan kepentingannya, dan dalam percobaan kami, bobot item,
yaituTarget, Domain, Gaya, Metodologi, Kata Kunci dan Tanggal masing-masing
ditetapkan menjadi 0,3, 0,25, 0,25, 0,1, 0,05 dan 0,05.Metrik evaluasi Kami
memilih korelasi Pearson untuk mengukur kualitas skor kesamaan semantik.Semakin
besar korelasi Pearson, semakin berkorelasi skor yang diprediksi dan kebenaran
dasarnya. Korelasi Pearson ditunjukkan dalam persamaan (6).
Dalam karya ini, X
adalah skor kemiripan semantik yang diprediksi, dan Y menunjukkan nilai
kesamaan semantik yang beranotasi. 𝑐𝑜𝑣 (𝑋,
𝑌) mewakili kovarian X dan Y.Nilai
rata-rata 𝜇𝑋 dan resent
mewakili variabel X dan Y; 𝜎𝑋 dan 𝜎𝑌 adalah standar deviasi X dan Y.Karena
corpus kami memiliki anotasi biner dan anotasi lima tingkat, kami selanjutnya
menetapkan ambang yang berbeda untuk memprediksi apakah dua dokumen mirip
semantik.Baik Akurasi dan skor F1 dapat menjadi metrik evaluasi keseluruhan di
samping korelasi. Akurasi ditunjukkan persamaannya (7).
Dalam persamaan
(7), TP berarti jumlah pasangan dokumen yang diprediksi serupa yang sebenarnya
adalah pasangan dokumen yang serupa.TN berarti jumlah pasangan dokumen yang
diprediksi tidak sama dengan yang sebenarnya tidak sama.FP adalah jumlah
pasangan dokumen yang diprediksikan sama, yang sebenarnya berbeda. FN adalah
jumlah pasangan dokumen yang diprediksi berbeda yang sebenarnya serupa.Akurasi
berarti kemampuan prediksi umum suatu metode, dan F-score berarti kinerja
komprehensif dari daya ingat dan daya ingat. F-score ditunjukkan persamaannya
(8).
6.4. hasil dan
Diskusi
6.4.1.Korelasi
Pearson
Untuk
memverifikasi kualitas metode yang berbeda, kami menghitung korelasi Pearson
tentang 1.021 skor kesamaan dengan kebenaran dasar manusia
beranotasi.Perbandingan dengan baseline Hasil pada Tabel 4 menunjukkan bahwa
metode TE berbasis ontologi kami memiliki keuntungan yang berbeda pada metode
baseline, yaitu LDA_2013.Anotasi 5 tingkat memiliki tingkat kesamaan yang lebih
rinci; dan skor korelasi dengannya lebih meyakinkan daripada skor korelasi 2
tingkat.Metode TE_Onto kami mencapai peningkatan 4,1% (relatif) dibandingkan
metode baseline; ketika acara topik diekstraksi secara otomatis, metode
AutoTE_Onto kami dapat memperoleh 5.8% (relatif) peningkatan dibandingkan
metode baseline.
Dampak ontologi
Metode TE_Onto kami berkinerja jauh lebih baik daripada berbasis LSA
Metode TE , dan AutoTE_Onto
bahkan menampilkan 22.Keuntungan 7% dibandingkan metode AutoTE_LSA ketika acara
topik diekstraksi secara otomatis.Metode berbasis LSA mengukur kesamaan konsep
konsep semantik oleh topik kata umum atau kata kejadian bersama,sedangkan
metode berbasis ontologi mengukur kesamaan konsep semantik melalui pengetahuan
yang akurat dalam ontologi.Hasil di atas menunjukkan bahwa sumber daya
pengetahuan seperti ontologi domain sangat penting dalam pengukuran semantik
dokumen.Dampak ekstraksi TE Skor korelasi metode kami pada peristiwa topik yang
dibangun secara otomatis dan peristiwa topik beranotasi manusia sudah
dekat.Performa metode kami dengan acara topik yang diekstraksi otomatis
sebanding dengan acara topik emas yang dijelaskan oleh para ahli.Metode TE_LSA
hanya menunjukkan sedikit keuntungan pada metode AutoTE_LSA,dan metode
AutoTE_Onto bahkan berkinerja sedikit lebih baik daripada metode TE_Onto dalam
korelasi anotasi 5 tingkat.Ini menunjukkan bahwa, metode ekstraksi berbasis
pola dapat mengekstraksi informasi yang diperlukan dengan presisi yang tepat
dalam domain tertentu,dan proses ekstraksi otomatis menghasilkan kinerja yang
sebanding dengan anotasi manusia.
6.4.2. Akurasi dan
skor F1
Akurasi dan skor
F1 dapat menjadi metrik evaluasi umum di samping Korelasi.Akurasi menunjukkan
kemampuan umum suatu metode untuk memprediksi hasil yang tepat;skor F1 adalah
keseimbangan antara presisi dan daya ingat, yang menunjukkan kapasitas
komprehensif dari metode ini.Dalam aplikasi praktis, ambang batas yang berbeda
dapat ditetapkan untuk memprediksi apakah dua dokumen cocok semantik.Secara
umum, kinerja terbaik di antara ambang yang berbeda dianggap sebagai faktor
penting dalam evaluasi. Dalam percobaan berikut, ambang yang berbeda
ditetapkan.Pasangan kertas dianggap serupa secara semantik jika skor mereka
yang sama lebih besar dari ambang yang diberikan.Perbandingan dengan baseline
Seperti yang ditunjukkan pada Gambar. 7 dan Gambar. 8, Akurasi metode TE kami
selalu memiliki keuntungan yang berbeda atas metode berbasis LDA_ pada ambang
yang berbeda.Skor F1 terbaik kami adalah 0,639, sedangkan skor F1 terbaik dari
metode dasar adalah 0,536.Skor F1- dari metode AutoTE_Onto kami mengungguli
LDA_2013 di sebagian besar ambang batas,dan skor F1- dari metode TE_Onto kami
dengan peristiwa topik emas menunjukkan keunggulan dibandingkan metode baseline
saat ambang kurang dari 0,75.
Dampak ontologi
Kami membandingkan kinerja metode TE berbasis LSA dan metode TE berbasis
ontologi. Seperti yang ditunjukkan pada Gambar. 9 dan Gambar.10, Akurasi
terbaik dari metode TE berbasis LSA adalah 0,712, sedangkan Akurasi terbaik
dari metode TE berbasis ontologi adalah 0,768.Metode TE berbasis ontologi
berkinerja jauh lebih baik daripada metode TE berbasis LSA ketika ambang lebih
dari 0,250.Singkatnya, metode TE berbasis ontologi berkinerja lebih baik
daripada metode TE berbasis LSA, yang sesuai dengan hasil Korelasi Pearson pada
subbab terakhir.Hasil-hasil tersebut menunjukkan bahwa ontologi memegang
peranan penting dalam kesamaan semantik dokumen.
Diskusi Eksperimen
di atas menunjukkan bahwa metode TE dapat menghasilkan kinerja yang jauh lebih
baik secara umum. Skor kesamaan metode TE_LSA dan metode AutoTE_LSA berkisar
dari 0.0 hingga 0,70, dan tidak ada hasil positif sejati ketika ambang di atas
0,70. Skor kesamaan tingkat rendah itu membuat skor TE metode F1 berbasis LSA
tidak dapat dihitung.Artikel akademik biasanya memiliki konten panjang yang
berisi banyak terminologi rangkap,dan seringnya terminologi dalam tren domain
tertentu terjadi di banyak artikel domain. Selain itu, makalah akademik
cenderung meninjau pekerjaan terkait.Metode berbasis LDA menentukan kesamaan
topik dengan kata overlap. Oleh karena itu, skor kesamaan LDA_2013 berkisar
relatif tinggi dari 0,7 hingga 1.0, yang membuatnya berkinerja baik dalam
mengingat tetapi miskin dalam presisi, dan menekan kinerja
keseluruhannya.Metode kami memegang semantik inti dari dokumen secara langsung
melalui acara topik terstruktur, skor kesamaan metode TE berfluktuasi dari 0,0
ke 1.0 sesuai dengan kesamaan pasangan dokumen, dan mereka lebih diskriminatif
dan memiliki kinerja keseluruhan yang lebih baik.
6.4.3. Waktu dan
biaya memori
Setiap metode
dalam percobaan kami memerlukan proses offline.Sulit untuk mengukur dan
membandingkan proses off-line dari biaya-biaya di lingkungan dan prosedur yang
berbeda.Pada bagian ini kami mengukur waktu berjalan ketika menghitung
kemiripan semantik tingkat dokumen dalam kondisi yang sama. Waktu rata-rata
metode TE yang dikonsumsi adalah 0.002 dan pendudukan memori sekitar 100 juta,
sedangkan LDA_2013 berharga 4,83 dan menempati lebih dari 8G memori.Jelas bahwa
metode TE kami lebih efisien daripada pengukuran tradisional berbasis LDA dalam
hal waktu dan biaya memori.Alasannya adalah bahwa metode TE kami menggunakan
ontologi domain untuk menghitung kesamaan semantik daripada model LDA
besar.Secara umum, Metode TE kami yang mencapai kesamaan semantik berdasarkan
ekstraksi dan templat mendapatkan kinerja keseluruhan yang diinginkan.
7.Kesimpulan
Makalah ini
mengusulkan untuk pertama kalinya membangun acara topik untuk mewakili semantik
dokumen dan mengukur kesamaan semantik antara akademisic literatur dengan
menghitung kemiripan acara topik yang sesuai.Kami mendefinisikan arsitektur
umum acara topik dan memberikan metode komputasi konstruksi dan persamaan acara
acara. Gaya penelitian ontologi dan corpus evaluasi dibangun. Untuk mengukur
kesamaan konsep semantik, kami merancang Ontologi Linguistik
Komputasi.Eksperimen evaluasi menunjukkan bahwa metode acara topik kami
mendapatkan peningkatan yang signifikan pada pengukuran kesamaan semantik saat
ini,dan metode TE berbasis ontologi menunjukkan keunggulan keseluruhan dalam
Korelasi, Akurasi dan skor F1.Sumber daya pengetahuan seperti ontologi domain
memainkan peran penting dalam kesamaan semantik dokumen.Selain itu, metode kami
dapat digunakan untuk memodelkan semantik dari gaya kerja penelitian yang
berbeda,dan konstruksi otomatis berbasis ontologi dan penghitungan kesamaan TE
sesuai di berbagai domain,yang berarti metode kami dapat dengan mudah digunakan
di berbagai domain akademik.
Ucapan Terima Kasih
Penelitian ini
didukung oleh Yayasan Laboratorium Kunci Negara Lingkungan Pengembangan
Perangkat Lunak (Grant No. SKLSDE-2015ZX-04).Kami berterima kasih kepada
pengulas atas umpan balik mereka yang berharga, yang membantu memperbaiki
makalah ini.
Referensi
[1]
Courtney Corley and Mihalcea Rada. 2005.: Measuring the Semantic Similarity of
Texts. In: Proceedings of the
ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pages 13-18.
[2] Rus, V., Lintean M., Graesser, A.C., & McNamara,D.S. 2009.: Assessing Student Paraphrases Using Lexical
Semantics and Word Weighting. In: Proceedings of the 14th International Conference on Artificial Intelligence in
Education, Brighton, UK.
[3] Banea C, Choi Y, Deng L, et al.: CPN-CORE: A Text Semantic Similarity System Infused with Opinion Knowledge.
In: Proceeding of Second Joint Conference on Lexical and Computational Semantics. Atlanta, Georgia, USA,
2013: 221.
[4] Bill Dolan, Chris Quirk, and Chris Brockett. 2004.: Unsupervised Construction of Large Paraphrase Corpora:
Exploiting Massively Parallel News Sources. In: Proceedings of ACL, pages 350.
[5] Agirre E, Banea C.: SemEval-2015 task 2: Semantic textual similarity, English, Spanish and pilot on
interpretability[C] SemEval 2015, June.
[6] Daniel Ramage, Anna N. Rafferty, and Christopher D. Manning.: Random walks for text semantic similarity. In
Proceedings of the 2009 workshop on graph-based methods for natural language processing. Association for
Computational Linguistics, 2009: 23-31.
[7] Vasile Rus, Mihai Lintean, Cristian Moldovan, William Baggett, Nobal Niraula, and Brent Morgan.: The similar
corpus: A resource to foster the qualitative understanding of semantic similarity of text. In: Proceedings of LREC,
2012:23-25.
[8] Frane Šarić, Goran Glavaš, Mladen Karan, Jan Šnajder and Bojana Dalbelo Bašić. 2012.: Takelab: Systems for
measuring semantic text similarity. In: Proceedings of the Sixth International Workshop on Semantic Evaluation.
Association for Computational Linguistics, papers 441-448.
[9] R. Amsler.: Application of citation-based automatic classification. Technical report, The University of Texas at
Austin Linguistics Research Center, 1972.
[10] M. Kessler.: Bibliographic Coupling Between Scientific Papers, Journal of the American Documentation, Vol. 14,
No. 1, pp.10-25, 1963.
[11] H. Small, “Co-citation in the Scientific Literature: A New Measure of the Relationship between Two Documents,”
Journal of the American Society for Information Science, Vol. 24, No.4, pp. 265-269, 1973.
[12] G Salton, A Wong, CS Yang.: A vector space model for automatic indexing[J], Communications of the ACM ,1975,
V(11):613-620.
[13] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003.: Latent dirichlet allocation, J. of Mach Learn. Res.,
3: 993-1022.
[14] Madylova A, Öğüdücü Ş G.: A taxonomy based semantic similarity of documents using the cosine
measure[C]//Computer and Information Sciences. 24th International Symposium on. IEEE, 2009: 129-134.
[15] Nagwani N K, Verma S.: A frequent term and semantic similarity based single document text summarization
algorithm [J]. International Journal of Computer Applications (0975–8887) Volume, 2011: 36-40.
ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pages 13-18.
[2] Rus, V., Lintean M., Graesser, A.C., & McNamara,D.S. 2009.: Assessing Student Paraphrases Using Lexical
Semantics and Word Weighting. In: Proceedings of the 14th International Conference on Artificial Intelligence in
Education, Brighton, UK.
[3] Banea C, Choi Y, Deng L, et al.: CPN-CORE: A Text Semantic Similarity System Infused with Opinion Knowledge.
In: Proceeding of Second Joint Conference on Lexical and Computational Semantics. Atlanta, Georgia, USA,
2013: 221.
[4] Bill Dolan, Chris Quirk, and Chris Brockett. 2004.: Unsupervised Construction of Large Paraphrase Corpora:
Exploiting Massively Parallel News Sources. In: Proceedings of ACL, pages 350.
[5] Agirre E, Banea C.: SemEval-2015 task 2: Semantic textual similarity, English, Spanish and pilot on
interpretability[C] SemEval 2015, June.
[6] Daniel Ramage, Anna N. Rafferty, and Christopher D. Manning.: Random walks for text semantic similarity. In
Proceedings of the 2009 workshop on graph-based methods for natural language processing. Association for
Computational Linguistics, 2009: 23-31.
[7] Vasile Rus, Mihai Lintean, Cristian Moldovan, William Baggett, Nobal Niraula, and Brent Morgan.: The similar
corpus: A resource to foster the qualitative understanding of semantic similarity of text. In: Proceedings of LREC,
2012:23-25.
[8] Frane Šarić, Goran Glavaš, Mladen Karan, Jan Šnajder and Bojana Dalbelo Bašić. 2012.: Takelab: Systems for
measuring semantic text similarity. In: Proceedings of the Sixth International Workshop on Semantic Evaluation.
Association for Computational Linguistics, papers 441-448.
[9] R. Amsler.: Application of citation-based automatic classification. Technical report, The University of Texas at
Austin Linguistics Research Center, 1972.
[10] M. Kessler.: Bibliographic Coupling Between Scientific Papers, Journal of the American Documentation, Vol. 14,
No. 1, pp.10-25, 1963.
[11] H. Small, “Co-citation in the Scientific Literature: A New Measure of the Relationship between Two Documents,”
Journal of the American Society for Information Science, Vol. 24, No.4, pp. 265-269, 1973.
[12] G Salton, A Wong, CS Yang.: A vector space model for automatic indexing[J], Communications of the ACM ,1975,
V(11):613-620.
[13] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003.: Latent dirichlet allocation, J. of Mach Learn. Res.,
3: 993-1022.
[14] Madylova A, Öğüdücü Ş G.: A taxonomy based semantic similarity of documents using the cosine
measure[C]//Computer and Information Sciences. 24th International Symposium on. IEEE, 2009: 129-134.
[15] Nagwani N K, Verma S.: A frequent term and semantic similarity based single document text summarization
algorithm [J]. International Journal of Computer Applications (0975–8887) Volume, 2011: 36-40.
[16]
Schuhmacher M, Ponzetto S P.: Knowledge-based graph document modeling[C], In:
Proceedings of WSDM,
2014: 543-552.
[17] Rafi M, Shaikh M S.: An improved semantic similarity measure for document clustering based on topic maps[J].
arXiv preprint arXiv:1303.4087, (2013)
[18] Wang Ying, Zhang Ru-bo, and Lai Ji-bao. 2009.: Measuring concept similarity between fuzzy ontologies. Fuzzy
Information and Engineering 2: 163-171.
[19] Muyu Zhang, Bing Qin, Mao Zheng et al.: Encoding Distributional Semantics into Triple-Based Background
Knowledge Ranking for Document Enrichment. In: Proceedings of ACL.
[20] Dragomir R. Radev, Pradeep Muthukrishnan, and Vahed Qazvinian. 2009.: The ACL anthology network corpus.
In Proceedings of the 2009 Workshop on Text and Citation Analysis for Scholarly Digital Libraries. Association
for Computational Linguistics, pages 54-61.
[21] Leacock, C., and Chodorow, M. 1998.: Combining local context and WordNet sense similarity for word sense
identification. In WordNet, An Electronic Lexical Database. The MIT Press.
[22] Zhibiao Wu and Martha Palme.1994.: Verb semantics and lexical selection. In: Proceedings of ACL, pages 133-
138.
[23] Lin, D. 1998.: An information-theoretic definition of similarity. In: Proceedings of the International Conf. on
Machine Learning.
[24] Resnik, P. 1995.: Using information content to evaluate semantic similarity. In: Proceedings of the 14th
International Joint Conference on Artificial Intelligence.
[25] Goikoetxea J, Soroa A, Agirre E, et al.: Random walks and neural network language models on knowledge
bases[C]. In: Proceedings of NAACL-HLT. 2015: 1434-1439.
[26] Faruqui M, Dyer C.: Non-distributional word vector representations [J]. arXiv preprint arXiv:1506.05230, (2015)
[27] Thomas K. Landauer, Peter W. Foltz, and Darrell Laham. 1998.: An Introduction to latent semantic analysis.
Discourse Processes, 25(2-3):259-284.
[28] J. Pennington, R. Socher, and C. D. Manning.: Glove: Global vectors for word representation. In: Proceedings of
EMNLP, 2014.
[29] Turney, P. 2001.: Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In: Proceedings of the Twelfth
European Conference on Machine Learning.
[30] Cilibrasi, R.L. & Vitanyi, P.M.B. 2007.: The Google Similarity Distance, IEEE Trans. Knowledge and Data
Engineering, 19:3, 370-383.
[31] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.: Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[32] Quoc V Le and Tomas Mikolov.: Distributed representations of sentences and documents. arXiv preprint
arXiv:1405.4053, 2014.
[33] Martín G H, Schockaert S, Cornelis C, et al.: Using semi-structured data for assessing research paper similarity
[J]. Information Sciences, 2013, 221: 245-261.
[34] Muyu Zhang, Bing Qin, Ting Liu, et al.: Triple based Background Knowledge Ranking for Document Enrichment.
In: Proceedings of COLING, 2014.
[35] Kim, J. H.; Kim, D.; Kim, S.; and Oh, A.: Modeling topic hierarchies with the recursive chinese restaurant process.
In Proceedings of the 21st CIKM, 2012:783–792.
[36] Vasile Rus, Mihai Lintean, Rajendra Banjade, Nobal Niraula and Dan Stefanescu. 2013.: SEMILAR: The
Semantic Similarity Toolkit. In: Proceedings of ACL, pages 163-168.
[37] Musen, M.A.: The Protégé project: A look back and a look forward. AI Matters. Association of Computing
Machinery Specific Interest Group in Artificial Intelligence, 1(4), June (2015).
[38] Dominika Tkaczyk, Paweł Szostek, Mateusz Fedoryszak et al.: CERMINE: automatic extraction of structured
metadata from scientific literature. In: International Journal on Document Analysis and Recognition (IJDAR), pp.
317–335, 2015.
2014: 543-552.
[17] Rafi M, Shaikh M S.: An improved semantic similarity measure for document clustering based on topic maps[J].
arXiv preprint arXiv:1303.4087, (2013)
[18] Wang Ying, Zhang Ru-bo, and Lai Ji-bao. 2009.: Measuring concept similarity between fuzzy ontologies. Fuzzy
Information and Engineering 2: 163-171.
[19] Muyu Zhang, Bing Qin, Mao Zheng et al.: Encoding Distributional Semantics into Triple-Based Background
Knowledge Ranking for Document Enrichment. In: Proceedings of ACL.
[20] Dragomir R. Radev, Pradeep Muthukrishnan, and Vahed Qazvinian. 2009.: The ACL anthology network corpus.
In Proceedings of the 2009 Workshop on Text and Citation Analysis for Scholarly Digital Libraries. Association
for Computational Linguistics, pages 54-61.
[21] Leacock, C., and Chodorow, M. 1998.: Combining local context and WordNet sense similarity for word sense
identification. In WordNet, An Electronic Lexical Database. The MIT Press.
[22] Zhibiao Wu and Martha Palme.1994.: Verb semantics and lexical selection. In: Proceedings of ACL, pages 133-
138.
[23] Lin, D. 1998.: An information-theoretic definition of similarity. In: Proceedings of the International Conf. on
Machine Learning.
[24] Resnik, P. 1995.: Using information content to evaluate semantic similarity. In: Proceedings of the 14th
International Joint Conference on Artificial Intelligence.
[25] Goikoetxea J, Soroa A, Agirre E, et al.: Random walks and neural network language models on knowledge
bases[C]. In: Proceedings of NAACL-HLT. 2015: 1434-1439.
[26] Faruqui M, Dyer C.: Non-distributional word vector representations [J]. arXiv preprint arXiv:1506.05230, (2015)
[27] Thomas K. Landauer, Peter W. Foltz, and Darrell Laham. 1998.: An Introduction to latent semantic analysis.
Discourse Processes, 25(2-3):259-284.
[28] J. Pennington, R. Socher, and C. D. Manning.: Glove: Global vectors for word representation. In: Proceedings of
EMNLP, 2014.
[29] Turney, P. 2001.: Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In: Proceedings of the Twelfth
European Conference on Machine Learning.
[30] Cilibrasi, R.L. & Vitanyi, P.M.B. 2007.: The Google Similarity Distance, IEEE Trans. Knowledge and Data
Engineering, 19:3, 370-383.
[31] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.: Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[32] Quoc V Le and Tomas Mikolov.: Distributed representations of sentences and documents. arXiv preprint
arXiv:1405.4053, 2014.
[33] Martín G H, Schockaert S, Cornelis C, et al.: Using semi-structured data for assessing research paper similarity
[J]. Information Sciences, 2013, 221: 245-261.
[34] Muyu Zhang, Bing Qin, Ting Liu, et al.: Triple based Background Knowledge Ranking for Document Enrichment.
In: Proceedings of COLING, 2014.
[35] Kim, J. H.; Kim, D.; Kim, S.; and Oh, A.: Modeling topic hierarchies with the recursive chinese restaurant process.
In Proceedings of the 21st CIKM, 2012:783–792.
[36] Vasile Rus, Mihai Lintean, Rajendra Banjade, Nobal Niraula and Dan Stefanescu. 2013.: SEMILAR: The
Semantic Similarity Toolkit. In: Proceedings of ACL, pages 163-168.
[37] Musen, M.A.: The Protégé project: A look back and a look forward. AI Matters. Association of Computing
Machinery Specific Interest Group in Artificial Intelligence, 1(4), June (2015).
[38] Dominika Tkaczyk, Paweł Szostek, Mateusz Fedoryszak et al.: CERMINE: automatic extraction of structured
metadata from scientific literature. In: International Journal on Document Analysis and Recognition (IJDAR), pp.
317–335, 2015.