tokenize

    0

    2답변

    텍스트 파일이 있습니다. 파일의 각 행은 | '로 구분 된'n '개의 열을 갖는 레코드를 나타냅니다. (파이프) 문자. 열 값은 int, string, date, timestamp 등의 형식입니다. 빈 문자열과 공백도 열 값으로 사용할 수 있습니다. 데이터 값 유형의 유효성 검사와 유효성 검사가 필요하지 않습니다. 1234|xyz|abc|2016-04-08

    4

    1답변

    파이썬과 함께 제공되는 프랑스어 토크 나이저가 저에게 맞지 않는 이유는 무엇입니까? 내가 잘못하고 있니? John Richard Bond explique le rôle de l'astronomie. ["John Richard Bond explique le rôle de l'astronomie."]

    0

    1답변

    XML 파일을 가져 와서 XSLT로 변환하려고합니다. 다음과 같이 표시 나는 변환을 실행하면, 나는 결과를 싶습니다 <root> <TAG>10, 1, 3, 123, 4001, 34, 200, 105, 54, 0, 0, 0</TAG> </root> : XML은 I은 다음과 같습니다 변환하려고 그러나 <Field1>10</Field1> <Fie

    1

    1답변

    검색 쿼리를 토큰 화하려고하는데, 함수는 example on Cake's website과 매우 유사하지만 바로 앞에 -이있는 "이있을 때마다 문제가 발생합니다. $query = 'question "help needed" -"garbage" contents of query'; $tokens = Text::tokenize($query, ' ', '"', '"

    0

    1답변

    Word2Vec 모델에 문장을 추가하면 "ISO 9001"이 "ISO 9001"과 같이 숫자 값으로 끝나거나 시작되는 단어를 제거하는 것처럼 보입니다. ... 미리 감사드립니다.

    0

    1답변

    내가 공부하고 싶은 텍스트가 있다고 가정 해 봅시다. 문장과 단락의 수는 그대로 유지하는 것이 중요합니다 (문장의 끝, 새로운 단락의 개행 트리거 시작). 먼저 내 텍스트를 토큰 화해야한다고 가정 해 봅시다. 보시다시피, 출력은 단어 이외의 정보를 무시하는 목록입니다. 나는 다음과 같이하려고 할 수 있습니다 : >>> s = ['How', "'s", 'li

    1

    1답변

    저는 유니버스와 바이 그램이있는 코퍼스에 대해 2 개의 문서 - 용어 행렬을 만들려고합니다. 그러나 bigram 행렬은 현재 unigram 행렬과 동일하므로 왜 그럴지 잘 모르겠습니다. 코드 : docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramT

    -4

    1답변

    텍스트 파일의 각 문장에서 단어의 수와 평균 길이를 인쇄하려면 Python을 사용해야합니다. 이 할당에는 NLTK 나 Regex를 사용할 수 없습니다. 파일의 문장은 마침표, 느낌표 또는 물음표로 끝납니다. 하이픈, 대시 또는 아포스트로피는 문장을 끝내지 않습니다. 따옴표는 문장을 끝내지 않습니다. 그러나 또한 일부 기간은 문장을 끝내지 않습니다. 예를 들

    0

    1답변

    저는 파이썬을 사용하여 텍스트 분석 작업을하고 있습니다. 여기서는 텍스트 처리 작업에 NLTK를 사용했습니다. 저와 함께 미리 정의 된 biwords 세트가 있습니다. 또한 다음과 같은 문장이 있습니다. sentence = "Amila Iddamalgoda is currently working for Animo Text Analytics Inc. and c

    3

    1답변

    토큰 화 코드가 매우 복잡하다는 것을 알고 있는데도 코드에서 문장이 분리되는 위치를 찾을 수 없습니다. 예를 들어, 어떻게 토크 나이 알고 않는 Mr. Smitt stayed at home. He was tired 은 "씨"에 분할해서는 안 "그"전에 나눠 져야합니다.? 그리고 코드에서 "그"가 일어나기 전에 어디에서 분열합니까? (나는 올바른 장소에서 찾