키워드 )
Entity Linking(개체 연결)
Relatedness measures(관계성 측정)
Learning to rank(랭킹 학습)
Entity Linking은 텍스트 문서에서 개체들의 주어진 지식을 기반으로 하여 적합한 mention들을 찾아내는 작업이다.
가장 중요한 것은 entity relatedness이다.
이 알고리즘이 어노테이션으로 선택된 적합한 개체들의 관계성을 최대화 할 수 있도록 보장해야 하고
이 관계성의 최대화가 곧 개체 연결의 명확화(모호성 해소화)에 있어 에러를 최소화 하기 때문이다.
효과적인 relatedness function을 정의하는 것이 entity linking 알고리즘에서 중요한 포인트이다.
In this paper... )
랭킹학습으로서의 개체 관련성 학습의 문제점
수동으로 어노테잇 된 데이터를 기반으로 레퍼런서 데이터 셋을 만드는 방법론
이 machine-learned entity relatedness function의 성능
Entity Linking Problem )
주어진 텍스트 평문에서 spot/mention이라고 불리는 작은 fragment로 구별하는데, 그 스팟은 주어진 지식 베이스에 리스트 되어있는 named entity이다.
전형적인 Entity linking system은 spotting과 disambiguation으로 나뉜다.
SPOTTING )
입력 문서에서 스팟의 후보 셋을 구별한다.
각 스팟에서 개체의 후보를 리스트화 한다.
DISAMBIGUATION )
가장 적합한 스팟을 선택하고 후보들 중에서 가장 비슷한 개체를 선택한다.
Spotting and Candidate Selection
* Spotting : spot을 구별하는데에 그 목적이 있다.
n개의 term의 연속된 시퀀스가 도큐먼트 D에서 나온다고 하면 이것은 개체가 될 수 있다.
스팟들을 구별하는 법 : 스팟 L의 controlled vocabulary를 이용하는 것, 그리고 이 단어의 엔트리와 정확히 일치하는 n-grams의 입력 문서를 검색하는 것.
위키피디아가 KB로써 쓰일 때, 각 위키 기사는 개체들로 구별되고, 그 기사의 모든 위키피디아 내부 하이퍼링크들의 앵커텍스트들과 함께 타이틀을 고려함으로써 단어 L이 쉽게 빌트될수 있다.
그러면 각 스팟이 후보개체의 셋에 배정된다. 이것은 스팟 하나를 앵커텍스트로 사용하면서 KB에 참조된 모든 개체들을 고려함으로써 완료된다. 아쉽게도 KB의 다른 공간에 같은 스팟이 나올 수 있다. 그리고 떨어진 개체들을 참조할 수도 있다. 마침내 우리는 (모든 스팟들 후보에 속하는 스팟의 개체)를 실제로 도큐먼트 D에 스팟들로 언급된 개체들로서 표시했다.
스팟의 셋과 후보 개체를 가장 의미있는 것들로 제한하기 위해 링크 확률과 공통 속성이 유용하게 사용될 수 있다.
링크 확률 : (어떤 스팟의 링크 확률)... KB에 나타나는 횟수를 전체 발생갯수로 나눈거. 이것은....... 적합한 개체에 멘션으로써 거의 사용되지 않는 스팟들을 지워준다. (예-날짜정보... )
공통 : (스팟의 후보에 대한 공통)... 후보에 실제로 언급된 KB안의 스팟 발생횟수와 개체의 멘션으로써 KB에 스팟의 총 발생횟수를 나눈거. (전체 몇개의 다른 개체를 가리킬 수 있다고 하면 실제 언급 횟수로 나눠봐. )
둘다 미니멈 임계값을 두면 엔티티 링킹 프로세스의 리콜값에 영향을 주지 않고 스팟의 개수를 제한하거나 후보를 배정할 수 있는 단순하고 효과적인 전략이 될 수 있다고 증명되어왔다. (08년 논문에 있따고 하네 뭔가 봤떠니 내가 보고 있는 또다른 논문이네 ^^;;;;하하)
Disambiguation and Linking
한 스팟에 대해 여러 후보들이 있는데 이 스팟은 이제 그 스팟의 후보 중에 하나의 맞는 개체를 선택하여 명확화 해야 한다. 각 스팟에 대해 명확화 알고리즘의 아웃풋으로 선택된 개체와 컨피던스 점수가 나온다. 이 컨피던스 점수는 가장 매칭되는 개체를 고를 수 있게 사용되어질 수도 있고 precision, recall 로 트레이드 될 수도 있다.
스팟에 최적의 개체를 선택하기 위해 명확화는 다른 시그널과 피처들을 사용할 수 있다. 공통과 링크 확률 포함, 그리고 다른 피처들... 스팟으로 둘러쌓인 텍스트와 다른 문서의 스팟들을 고려한! 이런것들에 가장 중요한 피처는 Entity relatedness이다. 리얼 펑션으로 정의된다. 0아님 1. 미니멈 혹은 맥시멈 관계성 측정이다. 상대적으로. 엔티티 링킹의 저확도를 보장하기 위해 검출된 스팟에 링크된 모호성 제거 프로세스에 의해 선택된 엔티티는 서로서로 강하게 연관이 되어있다는 팩트를 가지고 있어야 한다.
Relatedness as a Ranking Function
한 문서에 대해 오로지 두개의 스팟으로 엔티티 링킹 알고리즘이 구별했다면, 그리고 이 스팟은 두개의 엔티티 후보 셋을 상대적으로 발생시킬 것이다. 대부분 모호성제거 알고리즘은 만약 한 후보개체가 또 다른 후보셋에 있는 것 중 하나와 강하게 연관되어있다면 그것은 실제로 두 스팟에 의해 언급되었을 확률이 높다고 가정한다.
좋은 개체 연관 함수 p는 정확한 개체들의 연관성을 높여줘야 한다. 연관있는 두 엔티티의 연관도는 다른 후보셋 안에 있는 것들보다 더 커야한다. 모든 스팟이 다 서로 같지 않음을 만족 시킬때..
'춤추는 프로그래머 > Machine Learning.' 카테고리의 다른 글
공부 할 것 (0) | 2014.07.16 |
---|---|
Entity Linking system (0) | 2014.01.21 |
Entity Linking (from wiki) (0) | 2014.01.21 |
Rough set - definitions... (from wiki) (2) | 2014.01.21 |
유한상태기계(Finite State Machine, FSM) 이란? (0) | 2013.04.10 |