본문 바로가기

Entity Linking system 전형적인 엔티티 링킹 시스템은 두 단계로 나뉜다. Spotting, disambiguation. SPOTTING > 인풋 도큐먼트에서 후보 스팟들의 집합을 구별해 낸 뒤, 각 스팟에서 후보 개체들의 리스트를 생산해 난다. DISAMBIGUATION > 그러면 후보들 중에서 가장 관계있는 스팟과 가장 비슷한 개체를 선택한다. 더보기
Entity Linking (from wiki) (http://en.wikipedia.org/wiki/Entity_linking)In natural language processing, entity linking, named entity disambiguation or named entity normalization (NEN)[1] is the task of determining the identity of entities mentioned in text. It is distinct from named entity recognition (NER) in that it identifies not the occurrence of names (and a limited classification of those), but their reference.Entit.. 더보기
Rough set - definitions... (from wiki) 컴퓨터 과학에서 러프 집합은 Zdzisław I. Pawlak라는 폴란드의 컴퓨터 사이언티스트가 처음으로 제창했다. (81,2년인듯)러프 집합은 전통적 집합이라고도 하는 crisp set의 정식 근사로 원래 집합의 하한, 상한 근사 두 가지 집합의 한 쌍이다. 1991년에 표준판의 rough set theory 러프 집합 이론은 하한과 상한 근사 집합이 crisp set이지만 다른 변수 하에서는 fuzzy set이 될 수도 있다. (대상 집합을 퍼지 집합으로 확장한 퍼지-러프 집합 이론도 있다고 하네 일본어판에는..) crisp set ? mathematical set. 우리가 흔히 아는 그런 집합을 의미 한다. fuzzy set ? 각 element들의 membership의 degrees(소속도)를 가.. 더보기
Sorting FileStatus[]/정렬하기 아래 링크에서 퍼옴 https://issues.apache.org/jira/browse/HADOOP-9066 12345678910111213141516171819202122232425262728293031323334//테스트케이스 작성시에 대충 이런것들이 필요하다. import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import.. 더보기
flume-hdfs-sink / flume-hdfs-conf.properties Flume을 이용해 수집한 데이터를 HDFS로 저장하고 싶을때... flume-hdfs-sink를 이용한다. Flume의 lib폴더에 flume-hdfs-sink.jar파일을 넣어준다. 나는 커스텀하여 다시 묶어서 넣었다. $ bin/flume-ng agent --conf conf --conf-file conf/flume-hdfs-conf.properties -n source -Dflume.root.logger=DEBUG,console 한번 써 봤다... Flume 실행시키는 커맨드이다. 옵션 별 설명은 딴데서 찾아봐... 검색하면 나옴 ㅎㅎㅎ(ㅈㅅ..ㄱㅊ) conf/flume-hdfs-conf.properties 를 반영하여 실행시키도록 해 놨으니 저 파일의 구성을 보면...앞뒤 다 짤르고 그냥 이 s.. 더보기
Hadoop에 저장된 파일 읽어오기 (ls, cat) 음 이거 하면서 ls가 listStatus의 약자구나............... 했따.....................ㅎ역시 코딩초딩 + "ls가 뭐에요?"나는 진정 ls도 모르는 사람이었어. 하. 하하하. 각설하고, 12345678910111213import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path; Configuration conf = new Configuration();conf.set("fs.d.. 더보기
ElasticSearch로 검색 Paging하기... (scan type) 일단 아래 링크를 읽어보자. http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-request-search-type.html#scan 스크롤에 왜 시간값을 주는지는 잘 모르겠다.. 인자로 넘겨주는 시간 이후에는 죽는건가? 뭐... 테스트도 안해봤따...... 뭔지... 잘........ 1. 자바 함수로 구현2. 함수를 실행시킬 때 마다 다음 페이지가 검색되도록..3. 인자는 쿼리와 기타 검색조건들, 페이지 사이즈.. 같은 함수를 실행시키는데 이게 최초 검색인지 다음페이지를 요청하는 것인지 알기 위해서 전역변수를 썼따!!!!아니 이게 잘하는 짓인지는 모르겠지만 코딩초딩인 나는.... 플래그또는캐싱 같은 개념을 가지고.... 더보기
MongoDB 설치기 http://www.mongodb.org/downloads 에서 다운받을 수 있따. 64비트로 깔고 싶지만 32비트를 쓰므로. 일단은 윈도우에서 테스트 해보자. 32비트 윈도우용을 다운받고 압축을 푼다. https://github.com/mongodb/mongo-java-driver/releases 여기서는 자바 드라이버를 다운받을 수 있다. 더보기
diff 사용법 -u : 없어진 내용(-), 생긴 내용(+)을 구분해서 표현해준다. 소스파일 비교시 필수-r : 재귀적으로 하위파일들까지 검사한다. 디렉토리 검사할 때 필요-N: 새로 생긴 파일(빠진파일)에 대한 비교결과까지 보여준다.--brief : 단순히 파일이 같은지만 확인 diff -u a_rev1.c a_rev2.c > comp.diff - 파일 a_rev1.c 와 a_rev2.c 파일을 비교 diff -urN dir1 dir2 > comp.diff - 폴더 dir1 과 dir2 를 비교. 가장 일반적인 형태. - dir2 가 최신이어야 한다. 그래야 '+(추가된 코드)' 형식으로 나타내어짐. 아니면 거꾸로 됨 diff -ur dir1 dir2 > comp.diff - 마찬가지로 두 폴더를 비교하는데, 빠진 파.. 더보기
ElasticSearch에서 인덱스의 상태 정보 가져오기 (인덱스 사이즈, 문서 개수) 자바 API를 사용하여 ElasticSearch에서 인덱스의 상태 정보 가져오는 방법은 다음과 같다. // IndicesStatusRequest 객체 IndicesStatusRequest indicesStatusRequest = new IndicesStatusRequest(new String[] {indexName}); // 요청 객체 실행하기IndicesStatusResponse indicesStatusResponse = client.admin().indices().status(indicesStatusRequest).actionGet(); // 응답 객체로부터 필요한 정보 가져오기// 복제본을 포함한 인덱스의 전체 사이즈를 문자열 형태로 가져오기String indexSize = indicesStatus.. 더보기